نام پژوهشگر: احمد خالقیان

طراحی مسیر بهینه برای رباتها بر مبنای یادگیری تقویتی
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی فناوریهای نوین 1394
  احمد خالقیان   منیژه ذاکری

در دهه اخیر هوشمندسازی ربات ها مورد توجه بسیاری از پژوهشگران در زمینه مهندسی رباتیک و هوش مصنوعی قرار گرفته است. از چالش های پیشروی پژوهشگران در این زمینه ساخت ربات هایی است که دارای قابلیت یادگیری و تطبیق پذیری باشند. هدف از این پایان نامه استفاده از روش های یادگیری تقویتی برای طراحی مسیر بهینه برای ربات ها می باشد. در این مطالعه روشی نو برای یادگیری مسیر بهینه حرکت ربات های بازو از طریق تعامل با محیط ارائه شده است. در این روش ابتدا مسیر اولیه ای توسط کاربر برای ربات تعریف شده و ربات شروع به طی کردن مسیر تعریف شده برای خود می کند. همزمان با طی مسیر، ربات خود به اکتشاف در محیط پرداخته و سعی می کند داده های آموزشی مناسب را کسب کند و عملکرد خود را بهینه تر نماید. هدف از به کارگیری یادگیری تقویتی توسط تابع هزینه تعریف می شود. در این مطالعه تابع هزینه برای بهینه سازی گشتاور اعمالی در مفاصل ربات تعریف گردیده است. ربات تلاش می کند تا خط مشی بهینه ای که موجب کسب بیشترین پاداش از محیط شود را یاد بگیرد. در این روش موقعیت های ابتدا و انتها و نقاط میانی حرکت و زمان هر تکه از مسیر توسط کاربر تعیین می گردد. سینماتیک معکوس محاسبه شده و زوایای متناظر با موقعیت ها در هر مفصل محاسبه می گردد. به کمک روش اسپیلاین مکعبی مسیری برای عبور از این نقاط برای تمامی مفاصل رسم شده و این مسیرها به ربات اعمال می-شود. بعد از طی مسیر توسط ربات میانگین گشتاور اعمالی در مفاصل حساب شده و به عنوان پاداش به یادگیری تقویتی ارسال می گردد. وظیفه یادگیری تقویتی اصلاح مسیر حرکتی ربات توسط تغییر نقاط میانی در یک بازه تعیین شده برای آن می باشد به شکلی که موجب گردد مسیر بعدی که به ربات اعمال می گردد میانگین گشتاور اعمالی کمتری نسبت به مسیر قبلی خود داشته باشد. در این روش فرآیند بهینه سازی جدای از انجام وظیفه اصلی ربات انجام نمی گیرد و بعد از اینکه ربات مسیری را بپیماید مسیر بعدی برای آن بر مبنای پاداش مسیر فعلی طراحی می شود. برای بررسی روش پیشنهادی، از شبیه سازی طراحی مسیر برای ربات های 2 – لینکی و پوما استفاده شده است. نتایج این شبیه سازی ها به طور کامل گزارش شده است و مسیرهای مختلفی که در طی یک فرآیند یادگیری پیموده شده اند و همینطور میزان پاداش در هر مسیر نمایش داده شده اند. برای شرح بهتر روش یادگیری تقویتی بر مبنای خط مشی بدون مدل تغییر پارامترهای بهینه سازی در حین فرآیند یادگیری در دیاگرام های جداگانه نشان داده شده است. همینطور موقعیت، سرعت، شتاب و تکانه و گشتاور اعمالی هر مفصل در مسیر نهایی گزارش شده است. برای بررسی کیفیت عملکرد الگوریتم پیشنهادی از 5 مطالعه موردی استفاده شده است که بر روی ربات های 2- لینکی و پوما شبیه سازی شده اند. در مطالعه موردی اول گزارش شده در این پایان نامه از طراحی مسیر با درنظر گیری یک نقطه میانی بین شروع و پایان مسیر برای ربات 2 - لینکی استفاده شده است. بعد از اعمال یادگیری تقویتی مجموع میانگین گشتاور مفصل ها از 7/7 n.m در مسیر اول به 4/6 n.m در مسیر نهایی کاهش پیدا کرده است. در مطالعه موردی دوم از طراحی مسیر با در نظر گیری دو نقطه میانی بین شروع و پایان مسیر برای ربات 2 – لینکی استفاده شده است. بعد از اعمال یادگیری تقویتی در این مورد مجموع میانگین گشتاور مفصل ها از 6/5 n.m در مسیر اول به 1/3 n.m در مسیر نهایی رسیده است. مطالعه موردی سوم به در نظر گیری سه نقطه میانی بین شروع و پایان مسیر ربات 2 - لینکی اختصاص دارد. در این شبیه سازی پس از پیاده سازی الگوریتم پیشنهادی مجموع میانگین گشتاور مفصل ها از 4/7 n.m در مسیر اول به 4/6 n.m در مسیر نهایی رسیده است. مطالعه موردی چهارم اختصاص به طراحی مسیر با یک نقطه میانی برای ربات پوما دارد. در این مطالعه پس از شبیه سازی الگوریتم پیشنهادی مجموع گشتاور مفصل ها از 54 n.m در مسیر اول به 40 n.m در مسیر نهایی رسیده است. در مطالعه موردی آخر گزارش شده در این پایان نامه از طراحی مسیر با سه نقطه میانی بین شروع و پایان مسیر برای ربات پوما استفاده شده است. بعد از اعمال یادگیری تقویتی مجموع میانگین گشتاور مفصل ها از 59 n.m به 56 n.m کاهش پیدا کرده است.