نام پژوهشگر: علیرضا خلیلیان

اکتساب مهارت در یادگیری تقویتی رباتیک توسط عاملهای خودمختار
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات 1393
  فاطمه تلگردی   علی اکبر پویان

یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. مشکل اینجاست که در بسیاری از کاربردهای واقعی، پاداش محیط با تاخیر بسیار زیادی به عامل داده می شود. مشکل دیگر این است که تا زمانی که عامل به یک سطح قابل قبول از یادگیری برسد، تمام حرکات آن تصادفی خواهد بود. ضمناً با پیچیده تر شدن محیط، تعداد وضعیت های مورد اکتشاف و پارامترهای تصمیم گیری افزایش پیدا می کند. تمامی این مسائل، اکتشاف را رویکردی زمان بر، با هزینه بسیار بالا و گاهی بسیار پرخطر کرده است. یک راه کار مورد پژوهش محققان در این حوزه، یادگیری کیفی است. در این پایان نامه، چارچوبی کلی برای یادگیری کیفی ارائه می شود و خصوصیات و اجزا آن معرفی می گردد. این چارچوب بر اساس یادگیری کیفی و تخمین پاداش ساختگی می باشد تا از فواید هر دو روش استفاده کند. چارچوب پیشنهادی آن چنان است که قابل تنظیم و انطباق با الگوریتم های مختلف، محیط های گسسته و پیوسته، ناوبری و غیر ناوبری باشد. سپس از چارچوب پیشنهادی یک نمونه ساخته شده، و روی محیط های محک ارزیابی گردیده است.