نام پژوهشگر: سلمان سلطانیان
سلمان سلطانیان محمد باقر نقیبی سیستانی
یادگیری تقویتی به عنوان یکی از روش های یادگیری ماشین بی نیاز به مدل، در دهه اخیر بیشتر مورد توجه محققین واقع شده است. توانایی یادگیری از طریق تعامل و بدون نیاز به راهنما، مشخصه اصلی این روش یادگیری می باشد. بسیاری از روش های سنتی یادگیری تقویتی، فقط در محیط های حالت و عمل گسسته و کوچک کارامد هستند. علاوه براین وجود نویز در محیط و تاخیر در دریافت پاداش توسط عامل، کارایی این روشها را محدود می سازد. با این وجود در بسیاری از مسائل واقعی محیط ها آغشته به نویز و فضاهای حالت و عمل بسیار بزرگ و یا پیوسته هستند که این شرایط در عمل کارایی روشهای سنتی یادگیری تقویتی را بسیار کاهش می دهد و لزوم تعمیم و یا ابداع روشهای جدید را آشکار می سازد. برای تعمیم یادگیری تقویتی به محیط های پیوسته از روش های تقریب تابع استفاده می شود. بدین طریق می توان تجربیات را به حالات مجاور تعمیم داد. در میان روش های تقریب تابع، سیستم های فازی مورد توجه ویژه ای قرار گرفته اند. یادگیری-q-فازی، از متداولترین این روش ها می باشد. این روش ها بر پایه یادگیری-q سنتی بوده و می توانند در محیط های پیوسته یاد بگیرند. ارائه روش های یادگیری سریعتر، مقاومتر و در عین حال با همگرایی بهتر، همچنان یکی از دغدغه های اصلی پژوهشگران در حوزه یادگیری تقویتی می باشد. در این راستا در این پایان نامه، یک روش یادگیری جدید با نام یادگیری-سارسا-فازی با توزیع محلی پاداش پیشنهاد شده است. این روش یک روش یادگیری تقویتی بر-سیاست می باشد و علاوه بر توانایی یادگیری در محیط های پیوسته، عمل پیوسته نیز تولید می کند. در این پایان نامه به منظور استفاده بهتر از تجربیات، از شایستگی پیگردی نیز استفاده شده است. عملکرد این روش را در مسئله قایق از دو منظر سرعت یادگیری و کیفیت سیاست نهایی مورد ارزیابی قرار داده و در چندین سناریو مختلف با روش یادگیری-q-فازی مقایسه کرده ایم. سپس حساسیت این دو روش را نسبت به پارامتر یادگیری و تعداد قوانین فازی، بررسی کرده و با طرح یک آزمایش برون - سیاست نبودن روش یادگیری-q-فازی را نشان داده ایم. در نهایت امکان واگرایی روش یادگیری-q-فازی و همگرایی روش پیشنهادی در مسئله تعادل آونگ-ارابه، نشان داده شده است.