نام پژوهشگر: بابک به ساز
بابک به ساز رضا صفابخش
برای بسیاری سیستم ها، توانایی یادگیری یک مزیت مهم و حتی در بعضی موارد یک نیاز است. از ابتدا، برای ایجاد توانایی یادگیری دو ایده کلی بسیار مورد توجه بوده است. ایده اول که به یادگیری با نظارت منجر می شود، استفاده از زوج های آموزشی ورودی-خروجی است. در این نوع یادگیری، سعی بر آموزش عملکرد درست به سیستم، با تعدادی مثال است که هر مثال شامل خروجی مورد انتظار از سیستم برای یک ورودی معین است. ایده دیگر که به یادگیری بی نظارت منجر می شود، استفاده از قاعده مندی های موجود در ورودی است. در این نوع یادگیری، هیچ راهنمایی ای از خارج سیستم وجود ندارد و سعی بر کشف الگوها و قاعده مندی هایی در ورودی است که برای تولید خروجی مطلوب سیستم، موثر هستند. از یک طرف، در یادگیری با نظارت تهیه زوجه های آموزشی ورودی -خروجی در بعضی مسایل سخت و حتی گاهی ناممکن است. از طرف دیگر، بدلیل عدم وجود راهنمایی تعلیمی کافی در یادگیری بی نظارت، این روش در بسیاری مسایل کارایی مطلوب ندارد. بدلیل این مشکلات، در دو دهه اخیر، توجه به یک ایده کلی جدیدتر به نام یادگیری تقویتی جلب شده است که از نظر میزان راهنمایی تعلیمی، بین یادگیری بی نظارت، این روش در بسیاری مسایل کارایی مطلوب ندارد. بدلیل این مشکلات، در دو دهه اخیر، توجه به یک ایده کلی جدیدتر به نام یادگیری تقویتی جلب شده است که از نظر میزان راهنمایی تعلیمی، بین یادگیری با نظارت و بی نظارت قرار می گیرد. در این نوع یادگیری، سعی بر آموزش عملکرد مطلوب به سیستم، با دادن یک معیار عددی از کارایی فعلی آن است. از یک سو، تهیه معیاری عددی از کارایی سیستم، بسیار آسان تر از تهیه زوجه های آموزشی ورودی-خروجی است و از سوی دیگر، میزان راهنمایی تعلیمی حاصل از این معیار عددی، می تواند برای راهنمایی سیستم به عملکرد مورد انتظار کافی باشد. در گذشته، بیشترین توجه در یادگیری تقویتی بر روش های مبتنی بر جدول متمرکز بوده است. در این روش ها، برای هر وضعیت (یا وضعیت-عمل) سیستم یک خانه از حافظه برای نگه داری ارزش عددی آن وضعیت (یا وضعیت-عمل) اختصاص می یابد. به همین دلیل، استفاده از یادگیری تقویتی مبتنی بر جدول، در مسایلی با فضای بزرگ که وضعیت ها (با وضعیت - عمل های ) بسیاری دارند، تقریبا ناممکن می باشد. از این رو، روشهایی برای بکارگیری یادگیری تقویتی در این مسایل، از جمله روش های مبتنی بر تخمین تابع، از خصوصیات همگرایی ضعیف تری نسبت به روش های مبتنی بر جدول برخوردارند که بررسی خصوصیات همگرایی آنها را برای استفاده درست از آنها پراهمیت می سازد. در این پایان نامهه در ابتدا، به بررسی سه روش مبتنی بر ارزش بر اساس تجمیع وضعیت سخت، شبکه پروسپرون چند لایه، و شبکه سی مک، و همچین دو روش مبتنی بر رویه ریاینفورس و بر خط باکستر و بارتلت پرداختیم. در آزمایشات تجربی این روش ها را بر روی سه مساله یادگیری تقویتی 100 راهزن مسلح، حفظ تعادل میله، و ربات ژیمناست، که به ترتیب درجه پیچیدگی آسان، متوسط و سخت دارند اجرا کردین. در این بررسی ها تاثیر پارامترهای مهم هر روش در خصوصیات همگرایی آنها مورد مطالعه قرار گرفت. این بررسی ها نشان دهنده خصوصیات همگرایی بهتر روش های مبتنی بر رویه، هم از لحاظ نظری بدلیل وجود تضمین های همگرایی قوی تر و هم از لحاظ تجربی بدلیل نتایج بهتر بود. همچنین یک سیستم نیورو-فازی جدید بر اساس روش های مبتنی بر رویه، طراحی کردیم. معماری این سیستم جدید با ایجاد تغییراتی در معماری یک سیستم موجود که آن را برای مساله های یادگیری تقویتی اپیزودی مناسب می سازد، بدست آمده است. علاوه بر این، همگرایی الگوریتم یادگیری آن را به یک ماکزیمم محلی امیدریاضی میانگین پاداش اثبات کردیم. این سیستم نیورو-فازی، در حالیکه تمامی فواید معمول سیستم های نیورو-فازی را دارد، داری این خصوصیت اضافه است که در چارچوب تقویتی عمل می کند و برای آموزش آن به جای زوج های آموزشی ورودی-خروجی تنهابه یک سیگنال تقویتی نیاز است. در نهایت، مقایسه نتایج این سیستم جدید با پنج روش قبلی نشان دهنده برتری واضح کلی آن( بادر نظر گرفتن نتیجه سه مساله با هم) بر آنها بود. در مساله 100 راهزن مسلح، تمامی روش ها قابل مقایسه با هم بودند و به عملکرد مطلوب رسیدند. در مساله حفظ تعادل میله، سیستم جدید بهترین عملکرد و در مساله ربات ژیمناست، با اختلافی ناجیز دومین بهترین عملکرد را داشت . این نتایج در حالی بدست آمده است که از دانش قبلی در روش نیورو-فازی استفاده نشده است.