نام پژوهشگر: بهاره کیومرثی خمارتاش
بهاره کیومرثی خمارتاش علی کریم پور
یادگیری تقویتی به طور گسترده و موفقیت آمیزی برای حل مسائل کنترل بهینه تنظیم سیستم های دارای دینامیک نا معین بکار گرفته شده است. با این حال، به دلیل اینکه در روش های موجود حل مسئله ردیابی بهینه، برای بدست آوردن قسمت پیشرو ورودی کنترلی دینامیک کامل سیستم نیاز هست، روش های یادگیری تقویتی به طور مستقیم قابل اعمال برای مسئله ردیابی بهینه سیستم های دارای دینامیک نامعین نمی باشند. در این پایان نامه رویکردی متفاوت برای حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با استفاده از یادگیری تقویتی ارائه شده است. ابتدا با استفاده از دینامیک سیستم و دینامیک ورودی مرجع، یک سیستم دینامیکی افزوده تعریف شده است. بر اساس سیستم افزوده معرفی شده، یک تابعی معیار با ضریب تنزیل برای مسئله کنترل بهینه ردیابی معرفی شده است. نشان داده شده است که برای یافتن پاسخ بهینه، در فرمول بندی ارائه شده تنها نیاز به حل یک معادله جبری ریکاتی افزوده می باشد و پاسخ کنترلی حاصل از حل این معادله شامل هر دو قسمت پیشرو و پسخور ورودی کنترلی می باشد. بنابراین می توان از روش های یادگیری تقویتی برای حل مسئله پیش رو برای سیستم های دارای عدم قطعیت بهره گرفت. با توجه با این خصوصیت، ابتدا مسئله ردیابی بهینه به صورت بر خط برای سیستم های با دینامیک نیمه معین با استفاده از شبکه عصبی فعال-نقاد حل شده است. سپس مسئله ردیابی بهینه به کمک الگوریتم q-learning به صورت بر خط برای سیستم ها با دینامیک کاملا نامعین حل شده است. در نهایت، از آنجائی که در عمل حالات سیسستم ممکن است در دسترس نباشند، مسئله ردیابی به صورت بر خط برای سیستم های با دینامیک کاملا ناشناخته و بدون نیاز به اندازه گیری حالات سیستم تنها با اندازه گیری داده های ورودی و خروجی و ورودی مرجع حل شده است.