طراحی مسیر بهینه برای رباتها بر مبنای یادگیری تقویتی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی فناوریهای نوین
- نویسنده احمد خالقیان
- استاد راهنما منیژه ذاکری وحید عظیمی راد اکبر اللهوردی زاده
- سال انتشار 1394
چکیده
در دهه اخیر هوشمندسازی ربات ها مورد توجه بسیاری از پژوهشگران در زمینه مهندسی رباتیک و هوش مصنوعی قرار گرفته است. از چالش های پیشروی پژوهشگران در این زمینه ساخت ربات هایی است که دارای قابلیت یادگیری و تطبیق پذیری باشند. هدف از این پایان نامه استفاده از روش های یادگیری تقویتی برای طراحی مسیر بهینه برای ربات ها می باشد. در این مطالعه روشی نو برای یادگیری مسیر بهینه حرکت ربات های بازو از طریق تعامل با محیط ارائه شده است. در این روش ابتدا مسیر اولیه ای توسط کاربر برای ربات تعریف شده و ربات شروع به طی کردن مسیر تعریف شده برای خود می کند. همزمان با طی مسیر، ربات خود به اکتشاف در محیط پرداخته و سعی می کند داده های آموزشی مناسب را کسب کند و عملکرد خود را بهینه تر نماید. هدف از به کارگیری یادگیری تقویتی توسط تابع هزینه تعریف می شود. در این مطالعه تابع هزینه برای بهینه سازی گشتاور اعمالی در مفاصل ربات تعریف گردیده است. ربات تلاش می کند تا خط مشی بهینه ای که موجب کسب بیشترین پاداش از محیط شود را یاد بگیرد. در این روش موقعیت های ابتدا و انتها و نقاط میانی حرکت و زمان هر تکه از مسیر توسط کاربر تعیین می گردد. سینماتیک معکوس محاسبه شده و زوایای متناظر با موقعیت ها در هر مفصل محاسبه می گردد. به کمک روش اسپیلاین مکعبی مسیری برای عبور از این نقاط برای تمامی مفاصل رسم شده و این مسیرها به ربات اعمال می-شود. بعد از طی مسیر توسط ربات میانگین گشتاور اعمالی در مفاصل حساب شده و به عنوان پاداش به یادگیری تقویتی ارسال می گردد. وظیفه یادگیری تقویتی اصلاح مسیر حرکتی ربات توسط تغییر نقاط میانی در یک بازه تعیین شده برای آن می باشد به شکلی که موجب گردد مسیر بعدی که به ربات اعمال می گردد میانگین گشتاور اعمالی کمتری نسبت به مسیر قبلی خود داشته باشد. در این روش فرآیند بهینه سازی جدای از انجام وظیفه اصلی ربات انجام نمی گیرد و بعد از اینکه ربات مسیری را بپیماید مسیر بعدی برای آن بر مبنای پاداش مسیر فعلی طراحی می شود. برای بررسی روش پیشنهادی، از شبیه سازی طراحی مسیر برای ربات های 2 – لینکی و پوما استفاده شده است. نتایج این شبیه سازی ها به طور کامل گزارش شده است و مسیرهای مختلفی که در طی یک فرآیند یادگیری پیموده شده اند و همینطور میزان پاداش در هر مسیر نمایش داده شده اند. برای شرح بهتر روش یادگیری تقویتی بر مبنای خط مشی بدون مدل تغییر پارامترهای بهینه سازی در حین فرآیند یادگیری در دیاگرام های جداگانه نشان داده شده است. همینطور موقعیت، سرعت، شتاب و تکانه و گشتاور اعمالی هر مفصل در مسیر نهایی گزارش شده است. برای بررسی کیفیت عملکرد الگوریتم پیشنهادی از 5 مطالعه موردی استفاده شده است که بر روی ربات های 2- لینکی و پوما شبیه سازی شده اند. در مطالعه موردی اول گزارش شده در این پایان نامه از طراحی مسیر با درنظر گیری یک نقطه میانی بین شروع و پایان مسیر برای ربات 2 - لینکی استفاده شده است. بعد از اعمال یادگیری تقویتی مجموع میانگین گشتاور مفصل ها از 7/7 n.m در مسیر اول به 4/6 n.m در مسیر نهایی کاهش پیدا کرده است. در مطالعه موردی دوم از طراحی مسیر با در نظر گیری دو نقطه میانی بین شروع و پایان مسیر برای ربات 2 – لینکی استفاده شده است. بعد از اعمال یادگیری تقویتی در این مورد مجموع میانگین گشتاور مفصل ها از 6/5 n.m در مسیر اول به 1/3 n.m در مسیر نهایی رسیده است. مطالعه موردی سوم به در نظر گیری سه نقطه میانی بین شروع و پایان مسیر ربات 2 - لینکی اختصاص دارد. در این شبیه سازی پس از پیاده سازی الگوریتم پیشنهادی مجموع میانگین گشتاور مفصل ها از 4/7 n.m در مسیر اول به 4/6 n.m در مسیر نهایی رسیده است. مطالعه موردی چهارم اختصاص به طراحی مسیر با یک نقطه میانی برای ربات پوما دارد. در این مطالعه پس از شبیه سازی الگوریتم پیشنهادی مجموع گشتاور مفصل ها از 54 n.m در مسیر اول به 40 n.m در مسیر نهایی رسیده است. در مطالعه موردی آخر گزارش شده در این پایان نامه از طراحی مسیر با سه نقطه میانی بین شروع و پایان مسیر برای ربات پوما استفاده شده است. بعد از اعمال یادگیری تقویتی مجموع میانگین گشتاور مفصل ها از 59 n.m به 56 n.m کاهش پیدا کرده است.
منابع مشابه
روشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات
: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...
متن کاملطراحی مسیر بهینه کوادروتور برمبنای کمینه گشتاور
طراحی بهینه مسیر حرکت ربات های پرنده با توانایی بالقوه در نقش هبرداری و عملیات تجسس منجر به بهبود در عملکرد آ نها میشود. از این رو هدف از این مقاله، طراحی مسیر بهینه یک ربات کوادروتور بر مبنای حداقل سازی گشتاور موتورها در حرکت نقطه به نقطه میباشد. ابتدا معادلات دینامیکی حرکت کوادروتور با استفاده از روش نیوتن به فرم فضای حالت استخراج میشوند. سپس بهینه سازی مسیر حرکت براساس حل غیرمستقیم مسأله ...
متن کاملیک مدل ریاضی جدید برای طراحی بهینه آبیاری نواری بر مبنای تحلیل حساسیت ضریب وزنی شاخصها
As pressurized irrigation is not possible for all circumstances, the use of modern techniques in surface irrigation is essential. In this paper, BISEDOM, a new mathematical model for evaluation, design and optimization of border irrigation is introduced. The effects of weighting coefficients of indicators are investigated based on the potential to improve and the most appropriate weighting sche...
متن کاملطراحی بهینه هندسه سیستم تعلیق مک فرسون برای یک خانواده محصول بر مبنای نظریه پلتفرم مشترک
در این مقاله هدف بدست آوردن الگوریتمی برای طراحی هندسهی سیستمتعلیق خودرو جهت استفاده در خانوادهی محصولات در کلاس های مختلف خودرو میباشد. این الگوریتم بهگونهای طراحی میشود که پارامترهای طراحی خانواده محصول با تغییر از یک کلاس خودرو به کلاس دیگر خودرو بیشترین اشتراک را با هم داشته باشند. بدینمنظور در ابتدا هندسهی سیستم تعلیق مورد بررسی قرار میگیرد و پارامترهای موثر در هندسهی سیستمتعلی...
متن کاملروشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات
: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...
متن کاملتوسعه الگوریتم شبیهسازی حرارتی بهبودیافته در طراحی سامانه خلبان خودکار بهینه برای نگهداری یک مسیر مشخص
در این تحقیق ابتدا بر اساس معادلات غیرخطیِ درگیر و شش درجه آزادی حاکم بر حرکت یک هواپیما، روابط ناوبری و معادلات حاکم برای یک هواپیمای مشخص در فضای حالت، تولید شده است. متعاقباً با استفاده از فرمول بندی کنترل بهینه در الگوی رگولاتور خطی و بکارگیری ایده افق زمانی پیشرو، دستورهای کنترلی بهینه، که در این فرمولبندی، نیرو و گشتاورهای آیرودینامیکی و موتور هستند برای بازه های زمانی مورد نظر افق به م...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی فناوریهای نوین
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023