اتوماتای یادگیری تقویتی گسسته

استفاده از یادگیری تقویتی در کنترل آرایش منظم عامل ها

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر 1393

یوسف مومنی, ولی درهمی, علی محمد لطیف,

این پایان نامه یک روش جدید یادگیری تقویتی برای ایجاد آرایش منظم عامل ها ارائه می دهد. آرایش منظم عامل ها به معنی قرارگرفتن آن ها در یک شکل منظم همچون مربع، مثلث، و هشت ضلعی می باشد. مسئله مذکور یک مسئله چند‍ عامله می باشد که در اینجا از روش های یادگیری برای حل آن استفاده می شود. اکثر کارهای گذشته در مورد آرایش منظم از یادگیری تقویتی یا به صورت تک عامله و یا در محیطی گسسته استفاده شده است، لذا د...

تخصیص پهنای باند در شبکه های مش با استفاده از روش آتوماتای یادگیر

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه ارومیه - دانشکده فنی 1392

منیره محمدنژاد, جمشید باقرزاده,

اخیراً شبکه های مش بی سیم به یک تکنولوژی نویدبخش تبدیل شده اند که کاربردهای مفیدی را ممکن می سازند. در گذسشته این شبکه ها گره هایی را به کار می بردند که تنها از یک کانال فرکانسی استفاده می کردند. شبکه های مش بی سیم تک کاناله با محدودیت هایی از قبیل کارایی پایین مواجه بودند. برای حل این مشکل یکی از راه ها استفاده از کانال های متعدد در شبکه است. بنابراین نحوه تخصیص این کانال ها به گره ها یکی از مو...

15 صفحه اول

تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی

ژورنال: کنترل 2011

درهمی, ولی, محرابی, امید,

مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرف...

متن کامل

توسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر 1390

بهناز حیدری دهکردی, ولی درهمی,

در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می...

15 صفحه اول

شبیه سازی پایشگر در کنترل سرپرستی - یک روش مبتنی بر دامنه

ژورنال: هوش محاسباتی در مهندسی برق 2012

سید مرتضی بابامیر,

در کنترل نظارتی سیستم‌های گسسته، یک پایشگر پاسخ‌های سیستم‌‌‌ به وقایع محیطی را پایش می‌کند تا اگر پاسخ سیستم نامطلوب باشد یک موقعیت ناامن یا بحرانی را به کاربر گزارش کند. منظور از پاسخ نامطلوب، پاسخی از سیستم است که باعث نقض نیاز کاربر سیستم شود. تاکنون چندین روش برای مدل‌سازی و شبیه‌‌سازی کنترل سرپرستی سیستم‌های گسسته ارائه شده‌اند اما فقدان یک روش سیستماتیک که متکی به داده‌های دامنه مسئله باش...

متن کامل

یادگیری سارسا فازی با توزیع محلی پاداش

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391

سلمان سلطانیان, محمد باقر نقیبی سیستانی,

یادگیری تقویتی به عنوان یکی از روش های یادگیری ماشین بی نیاز به مدل، در دهه اخیر بیشتر مورد توجه محققین واقع شده است. توانایی یادگیری از طریق تعامل و بدون نیاز به راهنما، مشخصه اصلی این روش یادگیری می باشد. بسیاری از روش های سنتی یادگیری تقویتی، فقط در محیط های حالت و عمل گسسته و کوچک کارامد هستند. علاوه براین وجود نویز در محیط و تاخیر در دریافت پاداش توسط عامل، کارایی این روشها را محدود می ساز...

15 صفحه اول

اکتساب مهارت در یادگیری تقویتی رباتیک توسط عاملهای خودمختار

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات 1393

فاطمه تلگردی, علی اکبر پویان, سعید شیری قیداری, علیرضا خلیلیان,

یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. مشکل اینجاست که در بسیاری از کاربردهای واقعی، پاداش محیط با تاخیر بسیار زیادی به عامل داده می شود. مشکل دیگر این است که تا زمانی که عامل به یک سطح قابل قبول از یادگیری برسد، تمام حرکات آن تصادفی خواهد بود. ضمناً با پیچیده تر شدن محیط، تعداد وضعیت های مورد اکتشاف و پ...

حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با دینامیک نامعین به کمک یادگیری تقویتی

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1392

بهاره کیومرثی خمارتاش, علی کریم پور, محمد باقر نقیبی سیستانی,

یادگیری تقویتی به طور گسترده و موفقیت آمیزی برای حل مسائل کنترل بهینه تنظیم سیستم های دارای دینامیک نا معین بکار گرفته شده است. با این حال، به دلیل اینکه در روش های موجود حل مسئله ردیابی بهینه، برای بدست آوردن قسمت پیشرو ورودی کنترلی دینامیک کامل سیستم نیاز هست، روش های یادگیری تقویتی به طور مستقیم قابل اعمال برای مسئله ردیابی بهینه سیستم های دارای دینامیک نامعین نمی باشند. در این پایان نامه رو...

راهکارکنترل مقاوم مبتنی بر یادگیری تقویتی به منظور توانبخشی حرکتی بازوی دست

ژورنال: :کنترل 0

زهرا حسن زاده بنابیدی zahra hasanzadeh binabidi گروه مهندسی پزشکی، دانشگاه آزاد اسلامی، واحد مشهد حمیدرضا کبروی hamidreza kobravi گروه مهندسی پزشکی، دانشگاه آزاد اسلامی، واحد مشهد سعید طوسی زاده saeed toosizadeh گروه مهندسی برق، دانشگاه آزاد اسلامی، واحد مشهد رضا بوستانی reza boostani گروه مغز و اعصاب، دانشگاه علوم پزشکی مشهد

توانبخشی حرکتی از مباحث مورد توجه محققان است. در اینتحقیق، یک راهکار کنترلی به منظور کنترل حرکت مدلی از بازوی دست با سه مفصل ارائه شده است. در مدل مورد استفاده، اثر فعالسازی همزمان عضلات آگونیست و آنتاگونیست مفصل مچ دست با استفاده از مکانیزم فریز سازی لحاظ شده است. با الهام از عملکرد سیستم اعصاب مرکزی در کسب مهارتهای حرکتی، راهکار کنترلی ارئه شده مبتنی بر یکی از الگوریتم های یادگیری تقویتی توسع...

متن کامل

اکتساب مهارت در یادگیری تقویتی با استفاده از مدل های آماری خوشه بندی گراف

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده فنی 1391

ابراهیم حبیبی, پرهام مرادی, فردین اخلاقیان طاب,

یادگیری تقویتی با مسئله یادگیری عامل هوشمند برای انتخاب اعمال به منظور بیشینه کردن کارایی عامل سروکار دارد. استفاده از مهارت ها در یادگیری تقویتی، سبب سرعت بخشیدن به کارکرد عامل می شود. یافتن اهداف میانی و ایجاد مهارت برای دست یابی به آنها، مسئله ای کلیدی در کشف خودکار مهارت می باشد. با کشف اهداف میانی و تعیین تابع سیاست دست یابی به آنها، عامل قادر به اکتشاف موثرتر ویادگیری سریع تر در کارهای دی...

15 صفحه اول