نام پژوهشگر: فاطمه فتحی نژاد
فاطمه فتحی نژاد ولی درهمی
استفاده از یادگیری باناظر در ناوبری ربات های متحرک، دارای چالش های جدّی همچون ناسازگاری داده ها، مشکل جمع آوری داده های آموزشی وخطای زیاد در این داده ها می باشد. لیکن استفاده از یادگیری تقویتی، که یک روش یادگیری تعاملی قدرتمند می باشد، مورد توجه واقع شد. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در مرحله آموزش می باشد. از این رو در این پایان نامه، یک ایده جدید برای استفاده موثّر از هر دو الگوریتم یادگیری فوق ارائه می شود. یک کنترلگر فازی سوگنو مرتبه صفر با تعدادی عمل کاندید برای هر قاعده جهت تولید فرمان های کنترل ربات در نظر گرفته شده است، بطوریکه ساختار این کنترلگر با ساختار کنترلگر یادگیری سارسایِ فازی که یک الگوریتم آموزش تقویتی پیوسته می باشد، سازگاری دارد. هدف از آموزش تعیین عمل مناسب برای هر قاعده است. در مرحله اول داده آموزشی با حرکت ربات توسط ناظر در محیط جمع آوری می شود. سپس با بهره گیری از روش جدید ارائه شده، پارامترهای ارزش هر عمل کاندید در قواعد فازی با کمک داده های آموزشی مقداردهی اولیه می شوند. در مرحله دوم از الگوریتم سارسایِ فازی برای تنظیم دقیق تر پارامترهای تالی کنترلگر بصورت برخط استفاده می شود. نتایج شبیه سازی در شبیه ساز kiks برای ربات خپرا حاکی از بهبود قابل توجه در زمان یادگیری و کیفیت حرکت ربات می باشد.