نام پژوهشگر: فیروزه حجازی
فیروزه حجازی میرمحسن پدرام
هدف از یادگیری تقویتی انجام دادن کاری و یا رسیدن به هدفی بدون دریافت اطلاعات مستقیم بیرونی است به گونه ای که عامل یادگیرنده به بیشترین سود یا پاداش برسد، این نوع یادگیری، بر اساس پاداش ها و تنبیه ها است. یادگیری تقویتی یکی از رویکردهایی است که برای حل مسائل تصمیم گیری رویت پذیر و نیمه رویت پذیر مارکوف به کار می رود. حالت نیمه رویت پذیر در واقع زمانی اتفاق می افتد که با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در مشاهده ها، انتقال حالت ها و محیط باشد)، که تصمیم گیری در این محیط دشوارتر از حالت رویت پذیر خواهد بود و پیدا کردن سیاست بهینه در این حالت از پیچیدگی و سربار محاسبه ای بالایی برخوردار خواهد بود. یکی از راه حل های پیشنهاد شده برای یادگیری وظایف پیچیده، روش شکل دهی است. دیدگاه مطرح در این روش آن است که عامل یادگیرنده از کارهای ساده آغاز کند و به تدریج بر پیچیدگی کارها تا حل وظیفه اصلی بیافزاید و این فرآیند یادگیری را ادامه دهد. فرآیند افزایش تدریجی پیچیدگی به صورت قابل ملاحظه ای سختی این گونه مسائل یادگیری را کاهش می دهد. هدف این پایان نامه ارائه روشی مبتنی بر شکل دهی کنش ها به منظور بهبود یادگیری تقویتی در محیط های نیمه رویت پذیر است. نتایج به دست آمده از آزمایش های مختلف نشان دهنده کارآیی توابع پیشنهادی این پایان نامه در محیط های تست مورد بررسی می باشد.