فرآیند یادگیری تقویتی

مدیریت طیف در شبکه های رادیو شناختگر به کمک یادگیری تقویتی

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه بیرجند - دانشکده مهندسی برق و الکترونیک 1392

احمد مبارکی, رضا قاضی زاده, حمید فرخی,

هدف اصلی شبکه های شناختگر، استفاده بهینه و انعطاف پذیر از پهنای باند فرکانسی است. با توجه به این هدف، کاربرهای جدیدی برای شبکه تعریف می شود. این کاربرها به کمک شبکه شناختگر می توانند منابع فرکانسی را به بهترین نحو مورد استفاده قرار دهند. یکی از وظایف شبکه های شناختگر، عملیاتی تحت عنوان "دستیابی به طیف" است. این عملیات شامل دو مرحله است. یکی حس کردن کانال به منظور یافتن ناحیه هایی از طیف که مورد...

15 صفحه اول

بخش بندی ملانوما و دیگر عارضه‌های رنگی پوست در تصاویر درموسکپی با استفاده از ترکیب روشهای آستانه گذاری مبتنی برالگوریتم یادگیری تقویتی

ژورنال: روشu200cهای هوشمند در صنعت برق 2014

احمد کشاورز, حسین پورقاسم, سیدمحمد سیدابراهیمی,

تصاویر درموسکپی یکی از ابزارهای اصلی مورد استفاده در تشخیص ملانوما و دیگر عارضه های رنگی پوست به شمار می‌رود. به علت سختی و عوامل ادراکی در تشخیص‌های انسانی، تحلیل کامپیوتری تصاویر درموسکپی یک زمینه جدید تحقیقاتی را به روی محققین گشوده است. یکی از مراحل اصلی در تحلیل این تصاویر، آشکارسازی خودکار مرز عارضه می‌باشد. یافتن یک آستانه بهینه برای بخش بندی تصاویر دیجیتالی یک کار دشوار در پردازش تصویر ...

متن کامل

حذف نویز صوتی تناوبی با روش فعال و هوشمند

ژورنال: مکانیک سازه ها و شاره ها 2013

بهروز رئیسی, شاپور گلبهار حقیقی, علی اکبر صفوی,

در این تحقیق، روشی جدید مبتنی بر تکنیکهای یادگیری تقویتی با تکیه بر روش تفاوت زمانی صفر در مبحث یادگیری تقویتی، برای حذف نویز صوتی به صورت فعال در سیگنالهای باند باریک ارائه گردیده است. برای پیاده سازی این روش مبتنی بر فیدبک، اطلاعاتی از دینامیک مسیر اولیه و ثانویه لازم نمی باشد و در نتیجه این روش نسبت به تغییر این پارامترها به صورت مقاوم عمل می نماید. حجم بسیار کم محاسبات ریاضی و حافظه بسیار ا...

متن کامل

کنترل ترافیک یک چهارراه راهنمایی رانندگی با استفاده از الگوریتم‌های یادگیری تقویتی (یادگیری-Q، سارسا و مسیرهای شایستگی)

ژورنال: جاده 2018

امین نوری, علیرضا عربی

یکیازمهمتریناهدافپژوهشدرحوزهحملو نقل،بهینهکردنجریانهای ترافیک است. امروزه با افزایش وسایل نقلیه به طور پیوسته،محدودیت در منابعارائهشدهتوسطزیرساختهایفعلیو ماهیت غیرخطی، پویا و تصادفی بودن جریان ترافیک، استفاده از...

متن کامل

روشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات

ژورنال: :کنترل 0

فاطمه فتحی نژاد fateme fathinezhad دانشگاه یزد ولی درهمی vali derhami دانشگاه یزد

: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...

متن کامل

مدیریت پویای سبد سهام با استفاده از یادگیری تقویتی

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشکده علوم اقتصادی 1391

محمد خدادادی بهلولی, محمد مدرس یزدی, مسعود ماهوتچی,

در این پایان نامه مساله مبادله سهام شامل تعیین زمان خرید، قیمت خرید، زمان فروش و همچنین قیمت فروش سهام را با استفاده از روش یادگیری تقویتی که با نامهای دیگری مانند برنامه ریزی پویای مبتنی بر شبیه سازی نیز شناخته می شود، مدل می کنیم تا از این طریق سیاستی مناسب برای انجام مبادلات روی سهام بیابیم و سبدی از سهام را به صورت پویا و فعال به منظور بیشینه سازی سود حاصل از سرمایه گذاری مدیریت کنیم. مدله...

پردازش جریان های داده با به کارگیری یادگیری تقویتی در شبکه ی عصبی بازگشتی

پایان نامه :دانشگاه تربیت معلم - تهران - دانشکده فنی 1393

نبی اله میراشه, میرمحسن پدرام,

در این پایان نامه تلاش شده تا طرحی برای شبکه های عصبی مصنوعی ارائه شود که هم از نظر ساختار، هم به لحاظ فرآیند آموزش و هم از جهت پذیرش انواع گوناگون داده های ورودی به شبکه های عصبی زیستی شباهت داشته باشد. در نتیجه طرحی برای به کارگیری یادگیری تقویتی در شبکه های عصبی بازگشتی ساخته شده از عصب های دندانه ای ارائه شده است که توانایی پردازش داده های موازی و جریان های داده را همزمان دارد.

الگوریتم های یادگیری تقویتی فازی در محیط های نویزی با استفاده از سیستم های فازی بازه ای

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391

نوشین نصری مهاجری, محمد باقر نقیبی سیستانی,

یادگیری تقویتی همچونبرنامه ریزی پویادر حل مسائل با فضای حالت پیوسته با چالش نفرین ابعادروبروست. تعمیم ارزش یک حالت به سایر حالت های مجاوربا استفاده از تقریبگرهای عمومی یکی از راهکارهایی است که برای حل این مسئله پیشنهادشده است. در این روش عامل مجموعه ای محدود از فضای حالت را تجربه می کند و از طریق تعمیم دهی تقریب خوبی از کل فضا را بدست می آورد. یکی از بهترین تقریبگرهای عمومیسیستم های فازی اند. د...

15 صفحه اول

ترکیب یادگیری تقویتی پیوسته و یادگیری باناظر برای ناوبری ربات

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده مهندسی برق و کامپیوتر 1391

فاطمه فتحی نژاد, ولی درهمی, مهدی رضاییان,

استفاده از یادگیری باناظر در ناوبری ربات های متحرک، دارای چالش های جدّی همچون ناسازگاری داده ها، مشکل جمع آوری داده های آموزشی وخطای زیاد در این داده ها می باشد. لیکن استفاده از یادگیری تقویتی، که یک روش یادگیری تعاملی قدرتمند می باشد، مورد توجه واقع شد. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در مرحله آموزش می باشد. از این رو در این پایان نامه، یک ایده جدید برای استفاده موثّ...

15 صفحه اول

یادگیری تقویتی مبتنی بر نقشه خودسازمان ده تطبیقی با زمان

پایان نامه :وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر 1385

حسام منتظری, رضا صفابخش,

یادگیری تقویتی، نگاشت وضعیت ها به عمل ها با هدف ماکزیمم کردن سیگنال پاداش دریافتی را بررسی می کند. در این نوع یادگیری، به عامل گفته نمی شود که چه عملی را انتخاب کند، بلکه عامل باید عملی را انتخاب کند که پاداش دریافتی از محیط را بیشینه کند. در چالش برانگیزترین حالات، پاداش عمل ها بلافاصله مشخص نمی شود. یادگیری تقویتی، از یک سو دارای پشتوانه قوی از قضایا و اثبات های ریاضی است؛ و از سویی دیگر، این...

15 صفحه اول