علی‌ محمد لطیف

نام پژوهشگر: علی‌ محمد لطیف

استفاده از یادگیری تقویتی در کنترل آرایش منظم عامل ها

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر 1393
یوسف مومنی ولی درهمی

این پایان نامه یک روش جدید یادگیری تقویتی برای ایجاد آرایش منظم عامل ها ارائه می دهد. آرایش منظم عامل ها به معنی قرارگرفتن آن ها در یک شکل منظم همچون مربع، مثلث، و هشت ضلعی می باشد. مسئله مذکور یک مسئله چند‍ عامله می باشد که در اینجا از روش های یادگیری برای حل آن استفاده می شود. اکثر کارهای گذشته در مورد آرایش منظم از یادگیری تقویتی یا به صورت تک عامله و یا در محیطی گسسته استفاده شده است، لذا دارای ضعف هایی چون مشکل تنگنای ابعاد، سرعت کم یادگیری و راندمان پایین می باشند. تمرکز اصلی در این پایان نامه بر سیستم های چند عامله و محیط حالت-عمل پیوسته است. بنابراین یک روش یادگیری تقویتی فازی پیوسته ی چند عامله ارائه می شود. این روش گسترش به کارگیری یادگیری تقویتی فازی عملگر-نقاد در محیط چند عامله است. ساختار تولید خروجی در هر عامل بر اساس یک سیستم سوگنو مرتبه صفر است که برای هر تالی تعدادی عمل نامزد وجود دارد. هدف از یادگیری تعیین بهترین عمل نامزد از مجموعه عمل های نامزد شده برای هر قاعده در هر عامل است. همچنین یک روش انتخاب عمل پیوسته برای یادگیری تقویتی عملگر-نقاد فازی ارائه شده است که بر مبنای درون یابی خطی عمل می کند. با استفاده از این روش، انتخاب عمل تنها محدود به عمل های نامزد شده برای هر قاعده نخواهد بود و می توان در محدوده ی مورد نظر به صورت پیوسته عمل مناسب را انتخاب نمود. ویژگی روش جدید، سادگی آن و امکان استفاده ی آسان از آن به جای سایر روش های انتخاب عمل گسسته است. نتایج شبیه سازی حاکی از عملکرد مناسب ساختارهای ارائه شده برای مسئله ی ایجاد آرایش منظم می باشد. همچنین راندمان سیستم با استفاده از روش انتخاب عمل پیوسته نسبت به انتخاب عمل گسسته، به شکل قابل توجهی افزایش می یابد.