نام پژوهشگر: فرزانه قربانی

ارائه یک روش جدید یادگیری تقویتی پیوسته با تاکید بر تحلیل ریاضی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر 1392
  فرزانه قربانی   ولی درهمی

یکی از چالش های یادگیری تقویتی، عدم وجود الگوریتم های قابل اجرا در فضای حالت و عمل پیوسته است که دارای استدلال ریاضی باشند. در این پایان نامه سعی داریم با ارائه یک روش جدید یادگیری تقویتی پیوسته مبتنی بر معماری نقاد-تنها برای مسائل کنترل این چالش ها را برطرف کنیم. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات" با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده می شود. هر قاعده سیستم فازی داری چند تالی کاندید می باشد. هدف از آموزش، یافتن مناسب ترین تالی برای هر قاعده فازی است. با توجه به ساختاری که برای سیستم فازی در نظر گرفته شده است، این روش در زمره روش های یادگیری تقویتی فازی نقاد-تنها قرار دارد. توابع پایه حالت-عمل با توجه به شدت آتش و عملهای کاندید قواعد تعریف می شوند. روش تازه سازی پارامترهای وزن مربوط به تالی قواعد با استفاده از این توابع پایه و بهره گیری از الگوریتم تکرار سیاست کمترین مربعات، ارائه می شود. نشان داده می شود که توابع پایه حالت–عمل تعریف شده شرایط قضیه روش تکرار سیاست کمترین مربعات را برآورده می نمایند. لذا روش ارائه شده هم دارای تحلیل ریاضی است که به این وسیله یک کران خطا برای آن تعریف می شود و هم کارایی مناسبی دارد. نتایج شبیه سازی، حاکی از سرعت یادگیری بالاتر و نیز کیفیت عملکرد بهترِ روش تکرار سیاست کمترین مربعات فازی نسبت به دو روش مرتبط یادگیری کیوی فازی و یادگیری سارسای فازی می باشد. همچنین مزیت دیگر روش ارائه شده نسبت روش های مذکور، عدم نیاز به تعیین نرخ یادگیری است.