بهرام صادقی‌بی‌غم

نام پژوهشگر: بهرام صادقی‌بی‌غم

چگونگی تسهیم پاداش بین عامل ها در سیستم های چند عامله

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تحصیلات تکمیلی علوم پایه زنجان - دانشکده ریاضی و کامپیوتر 1390
سمیرا نظری محمدابراهیم شیری

سیستم های چندعامله ((mas راه حلی برای مسائل مطرح شده امروزه است که ویژگی هایی مانند توزیع شدگی، پویایی ، تطبیق پذیری، تنومندی، کارایی و قابلیت استفاده مجدد را فراهم می کند. از آنجا که محیط معمولا به اندازه کافی هوشمند نیست تا عاملهای انفرادی را در یک تیم همکارانه تشخیص صلاحیت دهد و سیگنال تقویتی اسکالر منفرد، تنها بازخورد قابل اطمینان است که تیم عامل های یادگیر دریافت می کند، انتساب امتیاز بین عاملی یکی از مسائل مهم در تحقق یادگیری تقویتی چندعامله ( (marlاست. معمولا، انتساب امتیاز چندعامله mca)) با یک تکنیک یکتا حل نمی شود. بدین منظور، این پایان نامه، روشی برای mca برمبنای اعتماد و شهرت درسیستم های marl توسعه می دهد. در روش پیشنهادی که انتساب امتیاز چندعامله مبتنی بر اعتماد (tmca) نامیده می شود، عامل نقاد (که مسئول توزیع تقویت بین عامل های یادگیر است) از مدل اعتماد و شهرت برای ارزیابی قابلیت اطمینان عامل های یادگیر تقویتی در انتخاب بهترین عمل در برخورد با هر حالت استفاده می کند. دو منبع اطلاعات اعتبار، اعتبار تعاملی و شهرت شاهدی را تحت چهار چوب یکسان به منظور استفاده از دانش و خبرگی همه ی عامل ها در سیستم ترکیب می کند و ارزیابی جامع از عمل انتخاب شده عامل در سیستم marl به منظور تسریع فرآیند یادگیری فراهم می کند. به منظور ارزیابی رویکرد پیشنهادی، این روش با زبان برنامه نویسی c-sharp پیاده سازی شده است. اثرات نوع وظیفه (وظیفه نوع and و نوع or روی حل مسئله mca مطالعه می کنیم. علاوه بر این، کارایی سیستم با وجود عدم قطعیت در محیط، به صورت اغتشاش در اعمال عامل بررسی می شود. نتایج برتری الگوریتم پیشنهادی را در مقایسه با روش قبلی و تنومندی آن در محیط مغتشش نشان می دهد.

۱۵ صفحه ی اول