نام پژوهشگر: یاسمن واقعی
یاسمن واقعی احمد قنبری
در سال های اخیر، تلاش مطالعات انجام شده بر روی الگوریتم های یادگیری به منظور پر کردن فضای خالی بین کنترل بهینه ی تطبیقی و روش های یادگیری برگرفته از سیستم های بیولوژیکی بوده است. یادگیری تقویتی یکی از مهم ترین روش ها است که امروزه جهت کنترل ربات ها مورد استفاده قرار گرفته است. از طرفی، کنترل راه روی ربات دوپا یکی از مهم ترین و پیچیده ترین مسائل با دینامیک غیرخطی می باشد. با توجه به اینکه پژوهش های بسیاری بر روی الگوریتم های یادگیری تقویتی و نیز شبکه های عصبی مصنوعی صورت گرفته است، هیچ یک به استفاده از شبکه های عصبی در الگوریتم یادگیری تقویتی عملگر- منتقد به منظور بهبود عملکرد کنترل ربات دوپا نپرداخته اند. لذا هدف در این پایان نامه، ارائه ی یک روش کنترلی نوین و مبتنی بر یادگیری تقویتی شبکه عصبی جهت کنترل راه روی یک ربات دوپای پنج لینکی صفحه ای می باشد. بدین منظور، در ابتدا به شرح و بررسی مطالعات انجام گرفته در مورد یادگیری تقویتی و ترکیب آن با شبکه ی عصبی پرداخته ایم. سپس، ربات دوپا به صورت سینماتیکی و دینامیکی مدلسازی شده و نیز مدل ریاضی راه روی برای برداشتن گام و ضربه ی گام ارائه شده است. در قدم بعد، یک الگوریتم یادگیری تقویتی موثر عملگر- منتقد جهت کنترل راه روی ربات انتخاب و پیاده سازی شده است. همچنین، به منظور بهینه سازی عملکرد کنترلی سیستم دینامیکی پیچیده ی این ربات، شبکه های عصبی رو به جلو در دو بخش عملگر و منتقد به کار گرفته شده-اند. نتایج حاصل حاکی از آن است که فرآیند یادگیری به سرعت به حالت مطلوب همگرا شده و الگوریتم کنترلی روشی کارا و دقیق جهت کنترل راه روی ربات دوپای پنج لینکی بررسی شده در این پایان نامه می باشد.