نام پژوهشگر: آرش گیوچی
آرش گیوچی مازیار پالهنگ
یکی از علاقه مندی های مهم در علم رباتیک، پیاده سازی رباتی دوپا و شبیه به انسان است که قادر باشد همانند انسان رفتار نماید. از میان همه رفتارهای مکانیکی بدن انسان، شاخص ترین آنها راه رفتن است. راه رفتن یک ربات انسان نما، موضوعی است که دامنه های مختلفی از علوم پایه و مهندسی را در بر می گیرد که از آن جمله می توان به زیست شناسی، فیزیولوژی، مهندسی مکانیک، مهندسی کنترل ، هوش مصنوعی و رباتیک اشاره نمود. از منظر هوش مصنوعی، یادگیری تقویتی در محیط پیوسته یک روش کنترلی مناسب برای یادگیری رفتارهایی است که نیاز دارند تا به صورتی نرم، یکنواخت و پیوسته تحت کنترل قرار گیرند. این روش یادگیری در سالهای اخیر بسیار مورد توجه دانشمندان علم کنترل و هوش مصنوعی واقع شده است و در بسیاری از آزمون های کنترلی از جمله راه رفتن یک ربات دوپا ، به عنوان یک روش مبتنی برآزمون و خطا که تجربه کردن را از طریق تعامل و محاوره با محیط پیرامون می اندوزد، استفاده گردیده است. آنچه در این پژوهش به انجام رسیده است، ارائه روشی مبتنی بر یکی از روشهای یادگیری تقویتی تحت عنوان روش گرادیان سیاست است که برای یادگیری گام برداشتن به عنوان عمل پایه در فرآیند راه رفتن برای یک ربات انسان نما تعریف می شود. در روش ارائه شده، طرح ریزی حرکت با استفاده از تفکیک یک گام به دو زیر رفتار اعمال می شود. از طرفی فرآیند یادگیری به دو زیر فرآیند یادگیری تعادل ویادگیری کاهش خطای ژیرسکوپ، تفکیک می شود. فرآیند اول یادگیری با استفاده از روش سریع مبتنی بر گرادیان سیاست اعمال می گردد و در فرآیند دوم یادگیری، استفاده از یک جستجوی تپه نوردی ساده همراه با روش گرادیانی برای همگرایی به رفتاری پایدار جهت گام برداشتن، کارگشا خواهد بود. در نهایت، نتایج یادگیری حاکی از آن است که ربات در هر دو فاز حرکتی علاوه بر تعادل توانسته است، میزان "لق خوردن" که مبتنی بر خطای ژیرسکوپ تعریف می شود را کاهش دهد و سرعت حرکت موتورهایش را در کنار یادگیری توابع حرکتی تنظیم نماید تا در نهایت علاوه بر سرعت همگرایی، سرعت راه رفتن خود را نیز افزایش دهد. کلمات کلیدی: 1- ربات انسان نما 2-یادگیری تقویتی پیوسته 3-گرادیان سیاست 4-ژیرسکوپ 5- تپه نوردی