نام پژوهشگر: نجمه علی بابایی

ساختارعصبی تقریب تابع مبتنی بر dignet برای یادگیری تقویتی
thesis دانشگاه تربیت معلم - تهران - دانشکده فنی 1391
  نجمه علی بابایی   میرمحسن پدرام

یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است. بنابراین مسئله تعمیم پیش خواهد آمد.روش پیشنهاد شده برای مسائل یادگیری تقویتی با فضای پیوسته ای از حالت ها و کنش ها مناسب است. در این روش از شبکه عصبی خودسازمان ده dignet برای نمایش فضای حالت و کنش استفاده شده است.استفاده از این شبکه سبب می شود در یک فضای پیوسته، عامل بتواند با استفاده از یک حافظه مصرفی مناسب ،میزان داده و زمان قابل قبول به هدف دست یابد.در پیشنهاد این پایان نامه مفاهیم اساسی یک مسئله یادگیری تقویتی و همچنین یک شبکه عصبی خودسازمان ده dignet بررسی می شود، و ساختار این شبکه به عنوان یک روش خوشه بندی کارا برای حل چالش پیوستگی فضای حالات و کنش ها ،در مسئله یادگیری تقویتی پیشنهاد می شود و کارایی آن بررسی و مقایسه می شود.