نام پژوهشگر: فاطمه سارانی راد
فاطمه سارانی راد میرمحسن پدرام
تا کنون روش های مختلفی برای حل مسائل یادگیری تقویتی ارائه شده است و در طول سال های اخیر تسریع روش های حل، یک مساله چالش برانگیز بوده است. برای حل مسائل یادگیری تقویتی از فرآیند تصمیم گیری مارکوف (mdp) استفاده می شود و تا کنون مطالعات زیادی برای بکاربردن روش های مختلف شکل دهی در این حوزه جهت تسریع فرآیند یادگیری انجام شده است، حال اگر با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در مشاهدات، انتقالات و محیط باشد)، محیط مورد بررسی یک محیط نیمه رویت پذیر می شود و مساله تبدیل به فرآیند مارکوف نیمه رویت پذیر (pomdp) می شود که تصمیم گیری در این محیط بغرنج تر خواهد بود و پیدا کردن سیاست بهینه در این حالت از پیچیدگی و سربار محاسباتی بالایی برخوردار خواهد بود. از اینرو بهبود روش های حل این مسائل باعث بهبود تصمیم گیری در محیط هایی با عدم قطعیت می شود، هدف این پایان نامه کاهش مشکلات موجود از طریق بکاربردن روش های شکل دهی است که با استفاده از ویژگیهای ذاتی محیط منجر به تسریع فرآیند یادگیری شوند. در حال حاضر در حل مسائل pomdp یک راه حل قطعی وجود ندارد و روش های موجودبرای حل، تقریبی از راه حل را ارائه می کنند که همراه با سربار محاسباتی بالایی است. هدف این پژوهش این است که با استفاده از شکل دهی پاداش ها سربار محاسباتی کاهش داده شود و از این طریق یادگیری تسریع شود. روش های شکل دهی پاداش پیشنهاد شده مستقل از روش حل pomdp می باشد و از هر یک از روش های حل pomdp می توان برای حل مساله مورد بررسی استفاده کرد که این نشان دهنده جامعیت این روش پیشنهادی است. هم چنین بر خلاف سایر روش های موجود شکل دهی در محیط pomdpکه در آن ها تابع شکل دهی به صورت مساله محور طراحی شده، توابع پیشنهادی در این پایان نامه مستقل از مساله بوده و از ویژگی های ذاتی و ساختاری موجود در محیط pomdp برای شکل دهی استفاده می کنند. از اینرو تابع پیشنهادی قابل پیاده سازی روی مسائل مختلف و بهمراه الگوریتم های مختلف حل مسائل pomdp هستند.