نام پژوهشگر: نکیسا کیانی
نکیسا کیانی امین راحتی
یادگیری تقویتی، یکی از شاخه های مطرح یادگیری ماشین در هوش مصنوعی است که برای حل یک مسئله نیازی به شناخت کامل از محیط ندارد، زیرا مسئله را به صورت یک عامل خودمختار و هدفمند می شناسد که با یک محیط نامعین در ارتباط است و ادراکات عامل از محیط را به عنوان حالت واقعی محیط در نظر می گیرد. یکی از کاربردهای این نوع از یادگیری در مسیریابی می باشد. یافتن مسیر بهینه در محیط های بزرگ و پیچیده با این روش می تواند مشکل باشد. برای غلبه بر این ضعف، ترکیب یادگیری تقویتی با طرح ریزی که عمدتا جستجویی برای یافتن مسیر بهینه در فضای حالت است، الگوریتم های dyna را نتیجه می دهد که قادر هستند اطلاعات دریافتی را برای حالت های مجاور ارزیابی نمایند. در این پژوهش، به بررسی یک تکنیک طرح ریزی اکتشافی به نام dyna-h پرداخته شده است که توانایی جستجوی اکتشافی در مسیریابی را دارد. الگوریتم بررسی شده، با استفاده از الگوریتم یادگیری تقویتی، مسیر های مناسب تری را از بین کل مسیر های موجود انتخاب می کند. الگوریتم dyna-h را با دو الگوریتم مسیریابی یادگیری- q و dyna-q، از نظر میزان و سرعت یادگیری مورد مقایسه قرار داده و این نتیجه حاصل شد که dyna-h، در مسائل مسیریابی نتایجی به وضوح بهتر را فراهم می نماید. کلمات کلیدی: الگوریتم یادگیری- q، الگوریتم dyna-q، الگوریتم dyna-h ، مسیریابی، یادگیری تقویتی