نام پژوهشگر: علیرضا خلیلیان
فاطمه تلگردی علی اکبر پویان
یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. مشکل اینجاست که در بسیاری از کاربردهای واقعی، پاداش محیط با تاخیر بسیار زیادی به عامل داده می شود. مشکل دیگر این است که تا زمانی که عامل به یک سطح قابل قبول از یادگیری برسد، تمام حرکات آن تصادفی خواهد بود. ضمناً با پیچیده تر شدن محیط، تعداد وضعیت های مورد اکتشاف و پارامترهای تصمیم گیری افزایش پیدا می کند. تمامی این مسائل، اکتشاف را رویکردی زمان بر، با هزینه بسیار بالا و گاهی بسیار پرخطر کرده است. یک راه کار مورد پژوهش محققان در این حوزه، یادگیری کیفی است. در این پایان نامه، چارچوبی کلی برای یادگیری کیفی ارائه می شود و خصوصیات و اجزا آن معرفی می گردد. این چارچوب بر اساس یادگیری کیفی و تخمین پاداش ساختگی می باشد تا از فواید هر دو روش استفاده کند. چارچوب پیشنهادی آن چنان است که قابل تنظیم و انطباق با الگوریتم های مختلف، محیط های گسسته و پیوسته، ناوبری و غیر ناوبری باشد. سپس از چارچوب پیشنهادی یک نمونه ساخته شده، و روی محیط های محک ارزیابی گردیده است.