نام پژوهشگر: هما خواجه
هما خواجه ولی درهمی
امروزه رتبه بندی مبتنی بر یادگیری به مبحث تحقیقاتی مهمی در زمینه ی بازیابی اطلاعات تبدیل شده است. در حقیقت یک داستان یکسان برای روش های رتبه بندی اتفاق می افتد. در این داستان، هدف فراهم کردن مدل رتبه بندی بر طبق ارتباط بین اسناد و پرس وجو است که اسناد را به عنوان ورودی دریافت کند و لیست اسناد را بر حسب میزان مرتبط بودنشان به پرس وجوی کاربر مرتب کند. در این پایان نامه، سه الگوریتم رتبه بندی مبتنی بر بازخورد کاربر با استفاده از یادگیری تقویتی ارائه شده است. الگوریتم های پیشنهادی rrluff، rl3f و rlrauc نامیده شده اند. در الگوریتم های پیشنهادی، سیستم رتبه بندی به عنوان عامل سیستم یادگیری و انتخاب اسناد برای نمایش به کاربر به عنوان عملِ عامل در نظر گرفته شده اند؛ سیگنال تقویتی در این سیستم با توجه به کلیک کاربر بر روی اسناد محاسبه می شود. مقادیر ارزش-عمل در الگوریتم rlrauc، به ازای هر جفت کلمه-سند و در الگوریتم های rrluff و rl3f به ازای هر ویژگی محاسبه می شود. در روش rlrauc به هر جفت کلمه-سند پرس وجوی ارائه شده ی کاربر با توجه به مرتبط بودن سند، امتیازی تعلق می گیرد. همچنین در روش rrluff به هر ویژگی بر اساس تعداد اسناد مرتبط به پرس وجو در لیست رتبه بندی ایجادشده طبق آن ویژگی، امتیازی داده می شود. در روش rl3f به ویژگی ها با توجه به موقعیت سند در لیست مربوط به ویژگی و مرتبط بودن به پرس وجو، امتیازی اختصاص داده می شود. در هر چرخه ی یادگیری، اسناد بر حسب امتیازات تغییریافته برای ارائه پرس وجوی بعدی مرتب می شوند و از بین این اسناد با توجه به موقعیت سند در لیست رتبه بندی، اسنادی بر اساس یک توزیع تصادفی با توجه به امتیازات برای نمایش به کاربر انتخاب می شوند. روند یادگیری تا تکمیل آموزش ادامه می یابد. برای ارزیابی روش های پیشنهادی از مجموعه داده محک معروف letor3 استفاده شده است. نتایج ارزیابی نشان دهنده ی موثرتر بودن روش های پیشنهادی نسبت به روش های rluf و svmrank است که دو روش مرتبط هستند.