اتوماتای یادگیری تقویتی پیوسته

یادگیری تقویتی مبتنی بر نقشه خودسازمان ده تطبیقی با زمان

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1385

حسام منتظری, رضا صفابخش,

یادگیری تقویتی، نگاشت وضعیت ها به عمل ها با هدف ماکزیمم کردن سیگنال پاداش دریافتی را بررسی می کند. در این نوع یادگیری، به عامل گفته نمی شود که چه عملی را انتخاب کند، بلکه عامل باید عملی را انتخاب کند که پاداش دریافتی از محیط را بیشینه کند. در چالش برانگیزترین حالات، پاداش عمل ها بلافاصله مشخص نمی شود. یادگیری تقویتی، از یک سو دارای پشتوانه قوی از قضایا و اثبات های ریاضی است؛ و از سویی دیگر، این...

15 صفحه اول

ساختارعصبی تقریب تابع مبتنی بر dignet برای یادگیری تقویتی

پایان نامه :دانشگاه تربیت معلم - تهران - دانشکده فنی 1391

نجمه علی بابایی, میرمحسن پدرام,

یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است....

15 صفحه اول

طراحی کنترل کننده های بهینه فازی برای سیستم های ایمنی خودرو

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه شهید باهنر کرمان - دانشکده مهندسی برق 1391

ناهید ابراهیمی میمند, علی اکبر قره ویسی,

سیستم ترمز ضد قفل و سیستم تعلیق از جمله مهم ترین اجزای ایمنی خودروها هستند که نقش مهمی در تأمین آسایش سرنشینان و تضمین پایداری خودرو دارند. از این رو طراحی کنترل کننده های مناسب برای این اجزا به مسئله مهمی در صنایع خودروسازی تبدیل شده است، از آن جایی که این دو سیستم دارای ساختاری غیرخطی همراه با عدم قطعیت هستند، کنترل کننده های کلاسیک قادر به کنترل آن ها تحت شرایط مختلف و در حضور عدم قطعیت نیست...

15 صفحه اول

کنترل ترافیک یک چهارراه راهنمایی رانندگی با استفاده از الگوریتم‌های یادگیری تقویتی (یادگیری-Q، سارسا و مسیرهای شایستگی)

ژورنال: جاده 2018

امین نوری, علیرضا عربی

یکیازمهمتریناهدافپژوهشدرحوزهحملو نقل،بهینهکردنجریانهای ترافیک است. امروزه با افزایش وسایل نقلیه به طور پیوسته،محدودیت در منابعارائهشدهتوسطزیرساختهایفعلیو ماهیت غیرخطی، پویا و تصادفی بودن جریان ترافیک، استفاده از...

متن کامل

ترکیب یادگیری تقویتی پیوسته و یادگیری باناظر برای ناوبری ربات

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده مهندسی برق و کامپیوتر 1391

فاطمه فتحی نژاد, ولی درهمی, مهدی رضاییان,

استفاده از یادگیری باناظر در ناوبری ربات های متحرک، دارای چالش های جدّی همچون ناسازگاری داده ها، مشکل جمع آوری داده های آموزشی وخطای زیاد در این داده ها می باشد. لیکن استفاده از یادگیری تقویتی، که یک روش یادگیری تعاملی قدرتمند می باشد، مورد توجه واقع شد. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در مرحله آموزش می باشد. از این رو در این پایان نامه، یک ایده جدید برای استفاده موثّ...

15 صفحه اول

توسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر 1390

بهناز حیدری دهکردی, ولی درهمی,

در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می...

15 صفحه اول

ایجاد هماهنگی بین عامل ها در سیستم های چند عاملی به کمک pso و اتوماتای یادگیر

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق و کامپیوتر 1386

برنا جعفرپور, محمدرضا میبدی,

در این پایان نامه چندین روش مبتنی بر pso و اتوماتاهای یادگیر برای ایجاد هماهنگی در سیستمهای چند عاملی پیشنهاد گردیده است. روشهای پیشنهادی به دو گروه تقسیم میگردند: روشهای مبتنی بر pso و روشهای مبتنی بر اتوماتاهای یادگیر. در بخش اول ابتدا نسخه ی جدیدی از pso گسسته مبتنی بر اتوماتای یادگیر سلولی ارایه گردیده است. به منظور ارزیابی، این روش برای بهینه سازی 5 تابع استاندارد استفاده و نشان داده شده ا...

15 صفحه اول

ارائه یک روش جدید یادگیری تقویتی پیوسته با تاکید بر تحلیل ریاضی

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر 1392

فرزانه قربانی, ولی درهمی, حسین نظام آبادی پور,

یکی از چالش های یادگیری تقویتی، عدم وجود الگوریتم های قابل اجرا در فضای حالت و عمل پیوسته است که دارای استدلال ریاضی باشند. در این پایان نامه سعی داریم با ارائه یک روش جدید یادگیری تقویتی پیوسته مبتنی بر معماری نقاد-تنها برای مسائل کنترل این چالش ها را برطرف کنیم. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات" با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی"...

15 صفحه اول

تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی

ژورنال: کنترل 2011

درهمی, ولی, محرابی, امید,

مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرف...

متن کامل

گام برداشتن ربات انسان نما با استفاده از گرادیان سیاست در یادگیری تقویتی

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1390

آرش گیوچی, مازیار پالهنگ,

یکی از علاقه مندی های مهم در علم رباتیک، پیاده سازی رباتی دوپا و شبیه به انسان است که قادر باشد همانند انسان رفتار نماید. از میان همه رفتارهای مکانیکی بدن انسان، شاخص ترین آنها راه رفتن است. راه رفتن یک ربات انسان نما، موضوعی است که دامنه های مختلفی از علوم پایه و مهندسی را در بر می گیرد که از آن جمله می توان به زیست شناسی، فیزیولوژی، مهندسی مکانیک، مهندسی کنترل ، هوش مصنوعی و رباتیک اشاره نمود...

15 صفحه اول