نام پژوهشگر: مسعود اسدپور
مسعود اسدپور مجید نیلی احمدآبادی
همکاری در یادگیری در یک سیستم چند عاملی می تواند باعث افزایش سرعت یادگیری و هماهنگی با محیط پیچیده و متغیر گردد. این افزایش سرعت یادگیری به شرط شناخت صحیح افراد خبره در گروه و استفاده مناسب از تجربیات همه عاملها امکان پذیر است . در تحقیقاتی که تاکنون انجام شده است ، شناخت خبره براساس یک معیار ساده و یا با فرض ثابت بودن میزان خبرگی نسبی رباتها بوده است . در این تحقیق با توجه به توصیفات سیستم چند عاملی ، چند معیار مختلف برای درجه بندی میزان خبرگی عوامل معرفی شده است . همچنین براساس معیارهای استفاده شده ، روش جدید اشتراک وزن دار استراتژی برای استفاده هر ربات از دانش دیگر عوامل گروه معرفی می گردد. در این روش ، عاملهای گروه در دو حالت یادگیری مستقل و یادگیری با همکاری آموزش می بینند. یادگیری مستقل عاملها براساس یادگیری تقویتی q - learning صورت می گیرد. پس از چند تلاش یادگیری مستقل ، همکاری در یادگیری آغاز می گردد و دانش یادگیری شده میان عاملها مبادله می گردد. در این مرحله هر عامل به دانش عاملهای دیگر براساس میزان خبرگی آنها وزن مناسب اختصاص داده و در دانش خود تاثیر می دهد. تعیین وزنها براساس میزان خبرگی عاملها وبا یکی از سه فرمول ارائه شده (1) یادگیری از همه ، (2) یادگیری از همه با وزن های مثبت و(3) یادگیری از افراد خبره صورت می گیرد. روشهای تعیین وزنها و معیارهای معرفی شده برای درجه بندی میزان خبرگی عوامل برروی سه بستر تست (هدف و هدف یاب ، بلند کردن اجسام دو بعدی و هل دادن اجسام ) بررسی شده و نتایج با یادگیری مستقل عوامل و روشهای ارائه شده در تحقیقات قبلی مقایسه می شود.