نتایج جستجو برای: اتوماتای یادگیری تقویتی پیوسته

تعداد نتایج: 30376  

هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترل‌کننده‌های PID و SMES مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیه‌ای حرارتی است. ابتدا تنظیم پارامترهای کنترل‌کننده‌های PID و SMES به‌صورت یک مسئله بهینه‌سازی مدل‌شده توسط الگوریتم تدریس - یادگیری اصلاح‌شده حل می‌شود. سپس عملکرد هم‌زمان آن‌ها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه می‌گردد. کنتر...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه سیستان و بلوچستان - دانشکده ریاضی 1392

یادگیری تقویتی، یکی از شاخه های مطرح یادگیری ماشین در هوش مصنوعی است که برای حل یک مسئله نیازی به شناخت کامل از محیط ندارد، زیرا مسئله را به صورت یک عامل خودمختار و هدفمند می شناسد که با یک محیط نامعین در ارتباط است و ادراکات عامل از محیط را به عنوان حالت واقعی محیط در نظر می گیرد. یکی از کاربردهای این نوع از یادگیری در مسیریابی می باشد. یافتن مسیر بهینه در محیط های بزرگ و پیچیده با این روش می ...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه تهران 1380

در یادگیری تیمی و هنگامی که مجموعه ای از عامل ها در کنار یکدیگر به یادگیری می پردازند، زمانی می توان یادگیری مناسبی داشت که در آن میزان کارایی هر عامل مشخص باشد و بتوان نقش عاملهای مختلف را به دستی در تیم تعییین کرد. در این صورت می توان براساس نقش و میزان تاثیرگذاری عامل در کار گروهی تیم به وی امتیاز داد. در تحقیقاتی که تاکنون انجام شده است نقش همه عاملهای شرکت کننده در یادگیری را یکسان فرض کرد...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1390

مشارکت کلید اصلی رسیدن به موفقیت در سیستم های طبیعی و مصنوعی به شمار می رود و از این رو مشارکت در سیستم های چندعامله به منظور رسیدن به راه حل های بهتر ضروری به نظر می رسد. انتظار می رود که یادگیری مشارکتی چندعامله در مقایسه با یادگیری مستقل عامل ها، به دلیل دارا بودن دانش و منابع اطلاعاتی بیشتر به نتایج بهتری از نظر کیفی و سرعت یادگیری دست یابد. استفاده از استراتژی های مشارکت بهتر منجر به افزای...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده مهندسی برق و الکترونیک 1392

هدف اصلی شبکه های شناختگر، استفاده بهینه و انعطاف پذیر از پهنای باند فرکانسی است. با توجه به این هدف، کاربرهای جدیدی برای شبکه تعریف می شود. این کاربرها به کمک شبکه شناختگر می توانند منابع فرکانسی را به بهترین نحو مورد استفاده قرار دهند. یکی از وظایف شبکه های شناختگر، عملیاتی تحت عنوان "دستیابی به طیف" است. این عملیات شامل دو مرحله است. یکی حس کردن کانال به منظور یافتن ناحیه هایی از طیف که مورد...

تصاویر درموسکپی یکی از ابزارهای اصلی مورد استفاده در تشخیص ملانوما و دیگر عارضه های رنگی پوست به شمار می‌رود. به علت سختی و عوامل ادراکی در تشخیص‌های انسانی، تحلیل کامپیوتری تصاویر درموسکپی یک زمینه جدید تحقیقاتی را به روی محققین گشوده است. یکی از مراحل اصلی در تحلیل این تصاویر، آشکارسازی خودکار مرز عارضه می‌باشد. یافتن یک آستانه بهینه برای بخش بندی تصاویر دیجیتالی یک کار دشوار در پردازش تصویر ...

در این تحقیق، روشی جدید مبتنی بر تکنیکهای یادگیری تقویتی با تکیه بر روش تفاوت زمانی صفر در مبحث یادگیری تقویتی، برای حذف نویز صوتی به صورت فعال در سیگنالهای باند باریک ارائه گردیده است. برای پیاده سازی این روش مبتنی بر فیدبک، اطلاعاتی از دینامیک مسیر اولیه و ثانویه لازم نمی باشد و در نتیجه این روش نسبت به تغییر این پارامترها به صورت مقاوم عمل می نماید. حجم بسیار کم محاسبات ریاضی و حافظه بسیار ا...

ژورنال: :کنترل 0
فاطمه فتحی نژاد fateme fathinezhad دانشگاه یزد ولی درهمی vali derhami دانشگاه یزد

: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشکده علوم اقتصادی 1391

در این پایان نامه مساله مبادله سهام شامل تعیین زمان خرید، قیمت خرید، زمان فروش و همچنین قیمت فروش سهام را با استفاده از روش یادگیری تقویتی که با نامهای دیگری مانند برنامه ریزی پویای مبتنی بر شبیه سازی نیز شناخته می شود، مدل می کنیم تا از این طریق سیاستی مناسب برای انجام مبادلات روی سهام بیابیم و سبدی از سهام را به صورت پویا و فعال به منظور بیشینه سازی سود حاصل از سرمایه گذاری مدیریت کنیم. مدله...

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391

یادگیری تقویتی همچونبرنامه ریزی پویادر حل مسائل با فضای حالت پیوسته با چالش نفرین ابعادروبروست. تعمیم ارزش یک حالت به سایر حالت های مجاوربا استفاده از تقریبگرهای عمومی یکی از راهکارهایی است که برای حل این مسئله پیشنهادشده است. در این روش عامل مجموعه ای محدود از فضای حالت را تجربه می کند و از طریق تعمیم دهی تقریب خوبی از کل فضا را بدست می آورد. یکی از بهترین تقریبگرهای عمومیسیستم های فازی اند. د...

نمودار تعداد نتایج جستجو در هر سال

با کلیک روی نمودار نتایج را به سال انتشار فیلتر کنید