نام پژوهشگر: حسام منتظری
حسام منتظری رضا صفابخش
یادگیری تقویتی، نگاشت وضعیت ها به عمل ها با هدف ماکزیمم کردن سیگنال پاداش دریافتی را بررسی می کند. در این نوع یادگیری، به عامل گفته نمی شود که چه عملی را انتخاب کند، بلکه عامل باید عملی را انتخاب کند که پاداش دریافتی از محیط را بیشینه کند. در چالش برانگیزترین حالات، پاداش عمل ها بلافاصله مشخص نمی شود. یادگیری تقویتی، از یک سو دارای پشتوانه قوی از قضایا و اثبات های ریاضی است؛ و از سویی دیگر، این روش در مسایل مختلفی همچون مسیریابی ربات، اجتناب از مانع، تصمیم گیری در بازی ها، مسایل مهارت ها در روبوکاپ، و کنترل ترافیک به طور موفق عمل کرده است. یکی از مسایل مهمی که در مورد این روش مطرح می شود، بسط و توسعه روش به مسایلی با فضای وضعیت پیوسته است. برای حل مسایل با فضای وضعیت پیوسته، روش های مختلفی مانند شبکه های عصبی پرسپترونی چند لایه، کیمک، درخت های تصمیم، و نقشه های خود سازمان ده ارایه شده است. نشان داده شده است که یادگیری تقویتی با استفاده از نقشه های خود سازمان ده استاندارد در حل بسیاری از مسایل با فضای وضعیت پیوسته و حتی فضای عمل پیوسته موفق بوده اند. اما نقشه خودسازمان ده استاندارد نمی تواند یک تابع هدف متغیر را به خوبی ارایه کند و برای توابع هدفی که با توپولوژی نقشه همخوانی ندارد مورد استفاده واقع نمی شود. در این پایان نامه، یادگیری تقویتی مبتنی بر نقشه خودسازمان ده تطبیقی برای حل مشکل تابع هدف متغیر ارایه شده است. تابع هدف متغیر در یادگیری تقویتی منحصر به داده های فضای ورودی نیست، بلکه داده هایی که به عنوان ورودی نقشه خروجی داده می شود همیشه توزیع چگالی متغیر با زمان دارد. باید توجه داشت در یادگیری تقویتی عامل با گذشت زمان عملکرد خود را بهبود می دهد، در نتیجه داده های ورودی به نقشه خروجی با گذشت زمان تغییر می کنند و توزیع چگالی آن ناایستا است. روش دیگری که در این پایان نامه ارایه شده است روش یادگیری تقویتی با استفاده از نقشه خودسازمان ده رشدیابنده است. این روش برای حل هر دو مشکل ذکر شده ارایه شده است. ترکیب یادگیری تقویتی با نقشه های خودسازمان ده رشدیابنده به سادگی امکان-پذیر نیست و ترکیب این نوع نقشه با الگوریتم هایی که جدول کیو آن در طول زمان ثابت است، میسر نمی باشد. در این پایان نامه الگوریتم جدیدی مبتنی بر نقشه های خودسازمان ده رشد یابنده ارایه شده است که جدول کیو آن در طول زمان بزرگ و کوچک می شود. نشان داده شده است این الگوریتم در حل مسایل مختلف از بقیه روش ها موفق تر بوده است.