استفاده از یادگیری تقویتی در کنترل آرایش منظم عامل ها

پایان نامه
چکیده

این پایان نامه یک روش جدید یادگیری تقویتی برای ایجاد آرایش منظم عامل ها ارائه می دهد. آرایش منظم عامل ها به معنی قرارگرفتن آن ها در یک شکل منظم همچون مربع، مثلث، و هشت ضلعی می باشد. مسئله مذکور یک مسئله چند‍ عامله می باشد که در اینجا از روش های یادگیری برای حل آن استفاده می شود. اکثر کارهای گذشته در مورد آرایش منظم از یادگیری تقویتی یا به صورت تک عامله و یا در محیطی گسسته استفاده شده است، لذا دارای ضعف هایی چون مشکل تنگنای ابعاد، سرعت کم یادگیری و راندمان پایین می باشند. تمرکز اصلی در این پایان نامه بر سیستم های چند عامله و محیط حالت-عمل پیوسته است. بنابراین یک روش یادگیری تقویتی فازی پیوسته ی چند عامله ارائه می شود. این روش گسترش به کارگیری یادگیری تقویتی فازی عملگر-نقاد در محیط چند عامله است. ساختار تولید خروجی در هر عامل بر اساس یک سیستم سوگنو مرتبه صفر است که برای هر تالی تعدادی عمل نامزد وجود دارد. هدف از یادگیری تعیین بهترین عمل نامزد از مجموعه عمل های نامزد شده برای هر قاعده در هر عامل است. همچنین یک روش انتخاب عمل پیوسته برای یادگیری تقویتی عملگر-نقاد فازی ارائه شده است که بر مبنای درون یابی خطی عمل می کند. با استفاده از این روش، انتخاب عمل تنها محدود به عمل های نامزد شده برای هر قاعده نخواهد بود و می توان در محدوده ی مورد نظر به صورت پیوسته عمل مناسب را انتخاب نمود. ویژگی روش جدید، سادگی آن و امکان استفاده ی آسان از آن به جای سایر روش های انتخاب عمل گسسته است. نتایج شبیه سازی حاکی از عملکرد مناسب ساختارهای ارائه شده برای مسئله ی ایجاد آرایش منظم می باشد. همچنین راندمان سیستم با استفاده از روش انتخاب عمل پیوسته نسبت به انتخاب عمل گسسته، به شکل قابل توجهی افزایش می یابد.

منابع مشابه

کنترل ترافیک یک چهارراه راهنمایی رانندگی با استفاده از الگوریتم‌های یادگیری تقویتی (یادگیری-Q، سارسا و مسیرهای شایستگی)

یکیازمهمتریناهدافپژوهشدرحوزهحملو نقل،بهینهکردنجریان­های ترافیک است. امروزه با افزایش وسایل نقلیه به طور پیوسته،محدودیت در منابعارائهشدهتوسطزیرساخت­هایفعلیو ماهیت غیرخطی، پویا و تصادفی بودن جریان ترافیک، استفاده از...

متن کامل

کنترل سطح ویروس ها در بیماران مبتلا به hiv با استفاده از یادگیری تقویتی

hiv ویروسی است که با مختل کردن عملکرد و از بین بردن نوع خاصی از سلول های ایمنی بدن به نام t-cd4 منجر به نقص دستگاه ایمنی بدن انسان می شود. این ویروس با از بین بردن این گونه از سلول ها، باعث ایجاد بیماری ایدز (نقص ایمنی اکتسابی) می شود. امروزه پیشرفت های قابل توجهی در داروهای مورد استفاده در درمان بیماران مبتلا به عفونت hiv پدیدار گشته است که سبب بهبود کیفیت زندگی و افزایش طول عمر بیماران شده اس...

15 صفحه اول

تشخیص و کنترل استرس برمبنای سیگنال‌های مقاومت الکتریکی پوست و ضربان قلب با استفاده از یادگیری تقویتی

مقدمه: اختلالات اضطرابی شایع‌ترین وضعیت سلامت روانی است. از طریق تنظیم پاسخ به استرس می‌توان اضطراب را کنترل کرد. استرس به طور واضح بر سیستم اعصاب خودمختار اثر می‌گذارد و منجر به تعریق شدید و افزایش ضربان قلب می‌شود. روش‌های نوینی جهت شناسایی و کنترل استرس هنوز مورد نیاز است. مواد و روش‌ها: در این مقاله اضطراب از طریق یادگیری تقویتی کنترل شده است. برای اندازه‌گیری سطح استرس، مقاومت الکتریکی پوس...

متن کامل

کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی

این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی...

متن کامل

یادگیری تقویتی براساس معماری عملگر- نقاد در سیستم های چند عامله برای کنترل ترافیک

در نیمه دوم قرن گذشته اغلب جوامع شاهد شروع پدیده ای بنام ترافیک شهری در خود بوده اند که علت رخداد چنین پدیده ای عبور تعداد زیادی خودرو در زمان یکسان از یک زیر ساخت حمل و نقلی یکسان می باشد. پدیده ترافیک شهری دارای پیامدهای اقتصادی و محیط زیستی کاملاً شناخته شده ای از جمله آلودگی هوا، کاهش در سرعت، افزایش زمان سفر، افزایش مصرف سوخت و حتی افزایش تصادفات می باشد. یکی از راه های اقتصادی برای مدیریت ...

متن کامل

توسعه سامانه‌های چند عامله و یادگیری تقویتی در کنترل هوشمند چراغ‌های راهنمایی

امروزه یکی از معضلات جوامع شهری، ازدحام و ترافیک خودروها در معابر شهری است که منجر به آسیب‌های مختلف اقتصادی، محیط زیستی و اجتماعی می‌شود. برای جلوگیری از این آسیب‌ها، نیاز به بهبود زیر ساخت‌های فعلی حمل و نقل در شهرهای بزرگ بیش از پیش احساس می‌شود. تمرکز مقاله حاضر بر روی کنترل هوشمند چراغ‌های راهنمایی به عنوان یکی از شاخه‌های سیستم‌های حمل و نقل هوشمند با استفاده از سامانه‌های چند عامله یادگی...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023