نام پژوهشگر: بابک نجاراعرابی
زهرا قرایی مجید نیلی احمدآبادی
در این پژوهش هدف، مدلسازی توجه و به کارگیری آن در یادگیری حرکت یک ربات در یک مسیر مشخص می باشد که این رویکرد نهایتا منجر به متغیر شدن زمان نمونه برداری خواهد شد. از میان بستر های گوناگون، ایده کنترل توجه یک عامل هوشمند برگزیده شده است که در قالب یک مسئله یادگیری تقویتی در فضای پیوسته با به کارگیری الگوریتم یادگیری بیزی مطرح می شود. چالش اصلی عامل در طی این یادگیری تصمیم سازی بهینه با در نظر گرفتن محدودیت های زمانی و پردازشی از نقطه نظر دسترسی به منابع سنسوری و به روز رسانی فضای ادراکی جهت در اختیار داشتن درک بهتر از جهان پیرامون، می باشد. بنابراین برای ارضا نمودن محدودیت های موجود از یک سو و رسیدن به یک درک صحیح از موقعیت جهان از سوی دیگر تخمین فضای ادراکی به گونه ای هوشمندانه به کار گرفته شده است، تا عامل بر مبنای نیازها و محدودیت هایش بیاموزد در چه زمانی و چگونه از منابع سنسوری اش بهره بگیرد و چه زمانی با به کارگیری قابلیت های محاسباتی اش از طریق تخمین فضای ادراکی، به شناخت کافی از جهان پیرامون دست یابد. در این پژوهش حالت ها داده های قبلی خود را از دست نمی دهند و تصمیم گیری عامل براساس اطلاعاتی که از قبل پیش بینی شده است، انجام می گیرد. بنابراین باید حالت های گذشته و اثر آن ها برای تصمیم گیری عامل در لحظه ی کنونی نگهداری شوند. هم چنین به دلیل داشتن تعداد محدودی منبع برای گرفتن داده از محیط و هزینه بهره برداری از آن ها عامل در هر لحظه فقط می تواند توجه خود را به یک زیر مجموعه از منابع یا تصمیم گیر های محلی معطوف کند. در نتیجه تغییر جهت توجه باید به صورت بهینه انجام شود، هم چنین زمانی را که عامل برای گرفتن داده از یک منبع دانش سپری می کند ممکن است با سایر منابع برابر نباشد به عبارت دیگر عامل بر حسب نیاز ممکن است نمونه های داده بیشتری را از یک منبع دریافت کند که این امر منجر به متغیر بودن زمان نمونه برداری می شود. برای رسیدن به این اهداف از یک ماشین پیش بین استفاده شده است که در هر بار نمونه گیری ، حالت های بعدی هم پیش بینی می کند. در نتیجه هنگام توجه به یک منبع، عامل عکس العمل مناسب را بر اساس داده های فعلی و همچنین حالت های پیش بینی و نگهداری شده در نمونه گیری های قبلی انجام می دهد. این عکس العمل مناسب شامل تعیین مکان بعدی توجه نیز می شود. یعنی عامل باتوجه به داده های کنونی و داده های ذخیره شده در حافظه اش بهترین جهت برای تغییر مکان توجه و هم چنین بهترین فعل کنشی برای اثر گذاری روی محیط پیرامونش را انجام می دهد. برای تحقق این هدف تخمین پویا و غیر پویای فضای حالت در چارچوب یادگیری وظیفه پیشنهاد شده است. این چارچوب روی روبات e-puck در محیط شبیه سازی رباتیکی وبات آزموده شده است. نتایج شبیه سازی نشان می دهد که روبات می آموزد، چگونه با پرداخت هزینه کمتر که از طریق به کارگیری تخمین فضای حالت به جای به روز رسانی داده های سنسوری حاصل می شود، به یک خط مشی بهینه در تصمیم سازی به منظور یادگیری وظیفه، دست یابد. نتایج آزمایش ها کارایی این چارچوب را نشان می دهند.
امین رضایی پیش رباط فرزاد رجایی سلماسی
چکیده ندارد.
رقیه احمدی غلامعلی حسین زاده
چکیده ندارد.
مهدی حسینی بابک نجاراعرابی
چکیده ندارد.
محمدمهدی رضایی یوسفی کارو لوکس
چکیده ندارد.
طاهر شهبازی میرزاحسنلو بابک نجاراعرابی
چکیده ندارد.
سروش افخمی میبدی محمدجواد یزدان پناه
چکیده ندارد.
رامین دوست محمدی مهدی موسوی
چکیده ندارد.