فرآیند یادگیری تقویتی

نتایج جستجو برای: فرآیند یادگیری تقویتی

تعداد نتایج: 50751 فیلتر نتایج به سال:

بهبود یادگیری تقویتی در محیط های نیمه رویت پذیر با استفاده از شکل دهی کنش ها

پایان نامه :دانشگاه تربیت معلم - تهران - دانشکده فنی 1393

هدف از یادگیری تقویتی انجام دادن کاری و یا رسیدن به هدفی بدون دریافت اطلاعات مستقیم بیرونی است به گونه ای که عامل یادگیرنده به بیشترین سود یا پاداش برسد، این نوع یادگیری، بر اساس پاداش ها و تنبیه ها است. یادگیری تقویتی یکی از رویکردهایی است که برای حل مسائل تصمیم گیری رویت پذیر و نیمه رویت پذیر مارکوف به کار می رود. حالت نیمه رویت پذیر در واقع زمانی اتفاق می افتد که با عدم قطعیت در محیط مواجه ب...

بهبود یادگیری تقویتی در محیط های نیمه روئیت پذیربا استفاده از شکل دهی پاداش ها

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشکده علوم اقتصادی 1392

فاطمه سارانی راد, میرمحسن پدرام, عزیزالله معماریانی,

تا کنون روش های مختلفی برای حل مسائل یادگیری تقویتی ارائه شده است و در طول سال های اخیر تسریع روش های حل، یک مساله چالش برانگیز بوده است. برای حل مسائل یادگیری تقویتی از فرآیند تصمیم گیری مارکوف (mdp) استفاده می شود و تا کنون مطالعات زیادی برای بکاربردن روش های مختلف شکل دهی در این حوزه جهت تسریع فرآیند یادگیری انجام شده است، حال اگر با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در م...

یادگیری تقویتی شبکه عصبی جهت کنترل راه روی یک ربات دوپا

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی فناوریهای نوین 1393

یاسمن واقعی, احمد قنبری, سید محمدرضا سید نورانی,

در سال های اخیر، تلاش مطالعات انجام شده بر روی الگوریتم های یادگیری به منظور پر کردن فضای خالی بین کنترل بهینه ی تطبیقی و روش های یادگیری برگرفته از سیستم های بیولوژیکی بوده است. یادگیری تقویتی یکی از مهم ترین روش ها است که امروزه جهت کنترل ربات ها مورد استفاده قرار گرفته است. از طرفی، کنترل راه روی ربات دوپا یکی از مهم ترین و پیچیده ترین مسائل با دینامیک غیرخطی می باشد. با توجه به اینکه پژوهش ...

توسعه کنترلر هوشمند چراغ‌های راهنمایی بر پایه یادگیری تقویتی حالت پیوسته در محیط ترافیکی میکروسکوپیک

ژورنال: کنترل 2017

اصلانی, محمد, مسگری, محمد سعدی,

افزایش روزافزون تعداد خودروها و در پی آن ترافیک‌های سنگین شهری چالش بزرگی را برای کنترل بهینه ترافیک شهری برای مهندسین ایجاد کرده است. روش مناسب برای کنترل بهینه ترافیک هرچه باشد یقیناً باید وفق پذیر بوده تا بتواند ترافیک شهری را که دارای طبیعت پویا، پیچیده و تغییرپذیر است را به‌خوبی مدیریت نماید. در این راستا تمرکز اصلی تحقیق حاضر کنترل هوشمند و توزیع یافته چراغ‌های راهنمایی بر پایه یادگیری تقو...

متن کامل

استفاده از روش یادگیری رقابتی برای قیمت دهی استراتژیک شرکت های تولید بر اساس lmp در بازار برق

ژورنال: :مهندسی برق دانشگاه تبریز 0

مریم رمضانیان لنگرودی دانشگاه آزاد اسلامی - واحد لاهیجان - گروه مهندسی برق سیدمازیار میرحسینی مقدم دانشگاه آزاد اسلامی - واحد لاهیجان - گروه مهندسی برق بهنام علیزاده دانشگاه آزاد اسلامی - واحد لاهیجان - گروه مهندسی برق

ساختار رقابت مابین تأمین کنندگان انرژی در بخش تولید بازارهای برق منجر به آن شده است که شرکت های تولید با اتخاذ تصمیمات استراتژیک به دنبال حداکثرسازی سودشان باشند. در این راستا، شرکت های تولید سعی می کنند که از طریق ارائه قیمتی مناسب در سطحی بالاتر از هزینه های حدی خود، در رقابت با سایر تولیدکنندگان سهم بیش تری از تأمین انرژی الکتریکی بازار برق را کسب نمایند. هدف این مقاله پیشنهاد یک روش مبتنی ب...

متن کامل

گام برداشتن ربات انسان نما با استفاده از گرادیان سیاست در یادگیری تقویتی

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1390

آرش گیوچی, مازیار پالهنگ,

یکی از علاقه مندی های مهم در علم رباتیک، پیاده سازی رباتی دوپا و شبیه به انسان است که قادر باشد همانند انسان رفتار نماید. از میان همه رفتارهای مکانیکی بدن انسان، شاخص ترین آنها راه رفتن است. راه رفتن یک ربات انسان نما، موضوعی است که دامنه های مختلفی از علوم پایه و مهندسی را در بر می گیرد که از آن جمله می توان به زیست شناسی، فیزیولوژی، مهندسی مکانیک، مهندسی کنترل ، هوش مصنوعی و رباتیک اشاره نمود...

15 صفحه اول

کاربرد یادگیری تقویتی در یک مدل‌سازی عامل‌محور برای بازار عمده‌فروشی برق ایران

ژورنال: اقتصاد انرژی ایران 2018

سعید مشیری, فرهاد فلاحی, محمدرضا اصغری اسکوئی, میثم دوستی‌زاده,

مطالعات اخیر بازارهای عمده‌فروشی برق عموماً براساس مدل‌های چندعاملی است، که در آن‌ها تعادل بازار برپایه رقابت و تعامل عوامل متعدد با یک دیگر به دست می‌آید. از ویژگی‌های اصلی این نوع مدل‌ها، امکان یادگیری عوامل از نتایج رفتار خود و سایرین دریک محیط رقابتی است. در بازار عمده‌فروشی برق، هرعامل یک واحد تولیدکننده برق است که به صورت مستقل و هوشمند با سایر عامل‌ها برای عرضه برق با قیمت‌های پیشنهادی ر...

متن کامل

راهکارکنترل مقاوم مبتنی بر یادگیری تقویتی به منظور توانبخشی حرکتی بازوی دست

ژورنال: :کنترل 0

زهرا حسن زاده بنابیدی zahra hasanzadeh binabidi گروه مهندسی پزشکی، دانشگاه آزاد اسلامی، واحد مشهد حمیدرضا کبروی hamidreza kobravi گروه مهندسی پزشکی، دانشگاه آزاد اسلامی، واحد مشهد سعید طوسی زاده saeed toosizadeh گروه مهندسی برق، دانشگاه آزاد اسلامی، واحد مشهد رضا بوستانی reza boostani گروه مغز و اعصاب، دانشگاه علوم پزشکی مشهد

توانبخشی حرکتی از مباحث مورد توجه محققان است. در اینتحقیق، یک راهکار کنترلی به منظور کنترل حرکت مدلی از بازوی دست با سه مفصل ارائه شده است. در مدل مورد استفاده، اثر فعالسازی همزمان عضلات آگونیست و آنتاگونیست مفصل مچ دست با استفاده از مکانیزم فریز سازی لحاظ شده است. با الهام از عملکرد سیستم اعصاب مرکزی در کسب مهارتهای حرکتی، راهکار کنترلی ارئه شده مبتنی بر یکی از الگوریتم های یادگیری تقویتی توسع...

متن کامل

اکتساب مهارت در یادگیری تقویتی با استفاده از مدل های آماری خوشه بندی گراف

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه کردستان - دانشکده فنی 1391

ابراهیم حبیبی, پرهام مرادی, فردین اخلاقیان طاب,

یادگیری تقویتی با مسئله یادگیری عامل هوشمند برای انتخاب اعمال به منظور بیشینه کردن کارایی عامل سروکار دارد. استفاده از مهارت ها در یادگیری تقویتی، سبب سرعت بخشیدن به کارکرد عامل می شود. یافتن اهداف میانی و ایجاد مهارت برای دست یابی به آنها، مسئله ای کلیدی در کشف خودکار مهارت می باشد. با کشف اهداف میانی و تعیین تابع سیاست دست یابی به آنها، عامل قادر به اکتشاف موثرتر ویادگیری سریع تر در کارهای دی...

15 صفحه اول

بهبود عملکرد حمله در تیم ربات‌های فوتبالیست با استفاده از یادگیری تقویتی

ژورنال: مهندسی برق دانشگاه تبریز 2018

مهدی رضائیان, مینا خاکسار, ولی درهمی,

به‌دلیل عدم امکان پیش‌بینی همه وضعیت‌های ممکن برای عامل‌ها در یک سیستم چندعامله‌ی پویا و گسترده، روش‌های یادگیری ماشین، ابزار مناسبی برای کنترل رفتار عامل‌ها می‌باشد. فوتبال شبیه‌سازی شده ربات‌ها یک مسئله شناخته‌شده برای ارزیابی الگوریتم‌های یادگیری ماشین روی سیستم‌های چندعامله است. در این مقاله الگوریتم یادگیری کیو ـ وی (یکی از الگوریتم‌های معروف یادگیری تقویتی) جهت بهبود عملکرد حمله در تیم رب...

متن کامل

نمودار تعداد نتایج جستجو در هر سال

با کلیک روی نمودار نتایج را به سال انتشار فیلتر کنید