نام پژوهشگر: سید محمدرضا احمدپناهی
سید محمدرضا احمدپناهی علی اکبر پویان
پیشرفت های اخیر سعی در جایگزینی روبات به جای انسان کرده است. روبات ها برای جایگزینی نیاز به یادگیری دارند. با تکامل علوم جدید هر روز روبات ها، برای رسیدن به هدف مورد نظر، بدون نیاز به نظارت انسان پیشرفت می کنند. تاکنون تحقیقات زیادی در مورد یادگیری با نظارت و یا بر اساس مدل انجام شده است. پیدا کردن راهی برای رسیدن به کوتاه ترین مسیر موجود از مکان فعلی تا مقصد در محیط ناشناخته مشکل بزرگی در راه یادگیری تقویتی می باشد. ما این اقدام را در این پایان نامه انجام داده ایم. هدف ما در این رساله، یافتن کوتاه ترین مسیر تا مقصد و در عین حال با ارزش ترین مسیر در محیط ناشناخته و در n بعد می باشد. یافتن کوتاه ترین مسیر به معنی وجود یک راه فیزیکی تا هدف نیست. اساس کار، پیاده سازی بر اساس مدل آزاد است تا قابل اجرا در هر فضایی باشد. برای رسیدن به هدف یادگیری، الگوریتم کلونی مورچگان را با یادگیری تقویتی ترکیب کردیم و ماتریس فرومون را ساختیم. با الگو برداری از ترشح دوپامین از کیسه ی کوچکی بنام وزیکول در مغز انسان، پاداش تاخیری را پیاده سازی کردیم و باعث ایجاد همگرایی کران پیش بینی پاداش به سمت پاداش واقعی شدیم.