نتایج جستجو برای: اتوماتای یادگیری تقویتی پیوسته
تعداد نتایج: 30376 فیلتر نتایج به سال:
یادگیری تقویتی، نگاشت وضعیت ها به عمل ها با هدف ماکزیمم کردن سیگنال پاداش دریافتی را بررسی می کند. در این نوع یادگیری، به عامل گفته نمی شود که چه عملی را انتخاب کند، بلکه عامل باید عملی را انتخاب کند که پاداش دریافتی از محیط را بیشینه کند. در چالش برانگیزترین حالات، پاداش عمل ها بلافاصله مشخص نمی شود. یادگیری تقویتی، از یک سو دارای پشتوانه قوی از قضایا و اثبات های ریاضی است؛ و از سویی دیگر، این...
یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است....
سیستم ترمز ضد قفل و سیستم تعلیق از جمله مهم ترین اجزای ایمنی خودروها هستند که نقش مهمی در تأمین آسایش سرنشینان و تضمین پایداری خودرو دارند. از این رو طراحی کنترل کننده های مناسب برای این اجزا به مسئله مهمی در صنایع خودروسازی تبدیل شده است، از آن جایی که این دو سیستم دارای ساختاری غیرخطی همراه با عدم قطعیت هستند، کنترل کننده های کلاسیک قادر به کنترل آن ها تحت شرایط مختلف و در حضور عدم قطعیت نیست...
یکیازمهمتریناهدافپژوهشدرحوزهحملو نقل،بهینهکردنجریانهای ترافیک است. امروزه با افزایش وسایل نقلیه به طور پیوسته،محدودیت در منابعارائهشدهتوسطزیرساختهایفعلیو ماهیت غیرخطی، پویا و تصادفی بودن جریان ترافیک، استفاده از...
استفاده از یادگیری باناظر در ناوبری ربات های متحرک، دارای چالش های جدّی همچون ناسازگاری داده ها، مشکل جمع آوری داده های آموزشی وخطای زیاد در این داده ها می باشد. لیکن استفاده از یادگیری تقویتی، که یک روش یادگیری تعاملی قدرتمند می باشد، مورد توجه واقع شد. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در مرحله آموزش می باشد. از این رو در این پایان نامه، یک ایده جدید برای استفاده موثّ...
در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می...
در این پایان نامه چندین روش مبتنی بر pso و اتوماتاهای یادگیر برای ایجاد هماهنگی در سیستمهای چند عاملی پیشنهاد گردیده است. روشهای پیشنهادی به دو گروه تقسیم میگردند: روشهای مبتنی بر pso و روشهای مبتنی بر اتوماتاهای یادگیر. در بخش اول ابتدا نسخه ی جدیدی از pso گسسته مبتنی بر اتوماتای یادگیر سلولی ارایه گردیده است. به منظور ارزیابی، این روش برای بهینه سازی 5 تابع استاندارد استفاده و نشان داده شده ا...
یکی از چالش های یادگیری تقویتی، عدم وجود الگوریتم های قابل اجرا در فضای حالت و عمل پیوسته است که دارای استدلال ریاضی باشند. در این پایان نامه سعی داریم با ارائه یک روش جدید یادگیری تقویتی پیوسته مبتنی بر معماری نقاد-تنها برای مسائل کنترل این چالش ها را برطرف کنیم. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات" با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی"...
مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرف...
یکی از علاقه مندی های مهم در علم رباتیک، پیاده سازی رباتی دوپا و شبیه به انسان است که قادر باشد همانند انسان رفتار نماید. از میان همه رفتارهای مکانیکی بدن انسان، شاخص ترین آنها راه رفتن است. راه رفتن یک ربات انسان نما، موضوعی است که دامنه های مختلفی از علوم پایه و مهندسی را در بر می گیرد که از آن جمله می توان به زیست شناسی، فیزیولوژی، مهندسی مکانیک، مهندسی کنترل ، هوش مصنوعی و رباتیک اشاره نمود...
نمودار تعداد نتایج جستجو در هر سال
با کلیک روی نمودار نتایج را به سال انتشار فیلتر کنید