نام پژوهشگر: سید مرتضی هاشمیان
سید مرتضی هاشمیان رضا منصفی
آونگ وارونه مسأله ای کلاسیک در زمینه تئوری کنترل و دینامیک است و به طور گسترده به-عنوان معیاری برای تست الگوریتم های کنترل به کار می رود. مشکل اصلی کنترل آونگ وارونه، کنترل آنلاین این سیستم تحت شرایط متغیر محیطی و امکان تطبیق پذیری هر چه بهتر این سیستم با محیط است. از این رو روش های یادگیری تقویتی گزینه مناسبی برای رفع این گونه چالش ها به حساب می آید. یکی از موانع اصلی دربرابر سرعت و دقّت یادگیری، مخصوصاً برای سیستم های پویا و پیوسته، وجود نویز محیطی است که تولید تابعِ ارزش تقریبی لازم برای این نوع سیستم پیوسته را با مشکل روبه رو می کند. استفاده از مدل های فازی برای تقریب این گونه سیستم ها، مسأله پیوسته بودن را تا حد قابل قبولی مرتفع می سازد، اما در مواجهه با نویز عکس-العمل قابل قبولی از خود نشان نمی دهد. از این رو مدل فازی بازه ای برای این نوع یادگیری پیشنهاد شده است که در آن پارامترهای فازی از قبیل عرض توابع عضویت و میزان فعال سازی قوانین به صورت بازه ای تعریف شده اند. ما از این بازه جهت استفاده از مجموعه فازیِ کم تر و در نتیجه قوانین کم تر برای کاربردهای با حافظه کم تر نیز استفاده نموده ایم. این مدل همانند مدل فازی نوع 1 عمل می کند با این تفاوت که برای تمامی آن ها به دو محاسبه نیاز است، یکی برای کران پایین و دیگری برای کران بالای بازه مورد نظر. مرحله غیرفازی سازی در روش پیشنهادی نسبت های مشخصی از آن کران ها است. مرحله تولید قوانین نیز به صورت تکاملی و باکارایی ارزش عمل صورت می پذیرد. نتایج حاصل از شبیه سازی در متلب نسخه 2010 و مقایسه این مدل با 4 مدل غیر بازه ایِ fql، elfq، swarm و dfql به خوبی نشان دهنده تأثیر این بازه بر تحمل پذیری در برابر نویز است، کارایی و زمان اجرای روش پیشنهادی به دلیل تعدیل اثر نویز و تغییرات محیط، نسبت به روش های غیربازه ای اشاره شده بهتر بوده لذا برای محیط نویزیِ آنلاین و بلادرنگ مناسب تر می باشد.