نام پژوهشگر: الهه عبدی

استفاده از روش رجحان به منظور حل مسائل یادگیری تقویتی در pomdps
پایان نامه دانشگاه تربیت معلم - تهران - دانشکده مهندسی کامپیوتر 1391
  الهه عبدی   میرمحسن پدرام

انتخاب کنش خوب، موضوع اصلی در هر گام تصمیم گیری برای رسیدن به موفقیت در سیستم های طبیعی و مصنوعی به شمار می رود و از این رو انتخاب کنش خوب در سیستم های نیمه رویت پذیر به منظور رسیدن به راه حل های بهتر، ضروری به نظر می رسد. اکثر تحقیقات در حوزه یادگیری ماشین نیز بر دو پایه اصلی بهبود کیفیت و کاهش زمان یادگیری متمرکز هستند. یکی از روش های موجود برای یادگیری در حوزه یادگیری تقویتی، الگوریتم تکرار سیاست می باشد که این روش در فرآیندهای نیمه رویت پذیر مارکوف، به صورت تقریبی و مبتنی بر گسترش می باشد. در این پایان نامه، بکارگیری الگوریتم تکرار سیاست مبتنی بر رجحان در سیستم نیمه رویت پذیر مارکوف با توجه به زمان داخلی پیشنهاد شده است. برای ارزیابی روش پیشنهادی از سه محیط آموزشی ماشین-کوهستان، پاندول معکوس و ماز استفاده شده است. نتایج آزمایش ها نرخ بالای موفقیت را در الگوریتم تکرار سیاست مبتنی بر رجحان که در آن از رتبه بند به عنوان سیاست یادگیری استفاده می شود، نسبت به الگوریتم سنتی تکرار سیاست تقریبی که در آن از نگاشت به عنوان سیاست یادگیری استفاده می شود، نشان می دهند. همچنین اجرای هر روش بر روی هر یک از محیط های شبیه سازی شده در فضای مارکوف رویت پذیر و نیمه رویت پذیر، نتایج تقریبا یکسانی را از خود برجای گذاشته است.