نام پژوهشگر: نجمه علی بابایی
نجمه علی بابایی میرمحسن پدرام
یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است. بنابراین مسئله تعمیم پیش خواهد آمد.روش پیشنهاد شده برای مسائل یادگیری تقویتی با فضای پیوسته ای از حالت ها و کنش ها مناسب است. در این روش از شبکه عصبی خودسازمان ده dignet برای نمایش فضای حالت و کنش استفاده شده است.استفاده از این شبکه سبب می شود در یک فضای پیوسته، عامل بتواند با استفاده از یک حافظه مصرفی مناسب ،میزان داده و زمان قابل قبول به هدف دست یابد.در پیشنهاد این پایان نامه مفاهیم اساسی یک مسئله یادگیری تقویتی و همچنین یک شبکه عصبی خودسازمان ده dignet بررسی می شود، و ساختار این شبکه به عنوان یک روش خوشه بندی کارا برای حل چالش پیوستگی فضای حالات و کنش ها ،در مسئله یادگیری تقویتی پیشنهاد می شود و کارایی آن بررسی و مقایسه می شود.