نام پژوهشگر: رضا خداپی

بررسی و مقایسه روش های انطباق و بهبود پرس وجو برای موتورهای جستجو در محیط وب
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده برق و کامپیوتر 1393
  رضا خداپی   محمدعلی بالافر

پرس وجوهای مبهم و کوتاه ارسالی به موتور جستجوها، به بازیابی نتایج غیرمرتبط منجر می شود. روش های انطباق پرس وجو سعی می کنند تا پرس وجوها را ابهام زدایی کنند و پرس وجو را با نیازهای اطلاعاتی کاربر منطبق کنند. بسط پرس وجو یکی از روش های انطباق پرس وجو است که سعی دارد کلمات مرتبطی را به پرس¬وجو اضافه کند، که می توان کلمات بسط را به صورت محلی و سراسری انتخاب کرد. بسط پرس وجو معمولا کارایی سامانه های بازیابی اطلاعات را افزایش می¬دهد. بازخورد مرتبط (rf) و بازخورد شبه مرتبط (prf) روش های بسط پرس وجو هستند که به ترتیب از اطلاعات بازخورد کاربر و اسناد رتبه بالا در نتایج اولیه استفاده می کنند تا کلماتی مرتبط را به پرس وجو اضافه کنند. راه کارهای محلی برای بسط پرس وجو، از اسناد رتبه بالای نتایج اولیه در روش بازخورد شبه مرتبط استفاده می کنند، که به بهبود کارایی سامانه ی جستجو کمک می کند. راه کار خوشه بندی لی و کرافت سعی می کند تا از هم پوشانی خوشه های ساخته شده با الگوریتم knn، برای انتخاب اسناد مرتبط استفاده کند. راه کار پیشنهادی ما، از الگوریتم knn برای خوشه بندی اسناد نتایج اولیه استفاده می کند. برای رسیدن به خوشه های بهتر، از شباهت حساس به پرس وجو استفاده کرده¬ایم. اعضای خوشه ها رتبه بندی شده و خوشه ها نسبت به هم رتبه بندی می شوند تا بتوانیم اسناد بهتر را از خوشه های رتبه بالا انتخاب کنیم. اسناد مرتبط انتخاب شده با هم ترکیب می شوند و کلمات بسط از سند ترکیبی با تابع رتبه¬بندی tf-idf انتخاب می شوند. کلمات انتخاب شده به پرس وجو اضافه می شوند تا بازیابی با پرس وجو بسط-داده شده انجام گیرد. برای ارزیابی راه کار ارائه شده از مجموعه داده ی پزشکی med استفاده کرده ایم. نتایج آزمایشات نشان می دهد که راه کار پیشنهادی، کارایی را نسبت به بازیابی پایه vsm و بازخورد شبه مرتبط بهبود می دهد. کارایی با خوشه های ساخته شده با شباهت حساس به پرس وجو نسبت به شباهت مبتنی بر کلمه افزایش پیدا کرده است که نشان از موثر بودن شباهت حساس به پرس وجو در خوشه بندی اسناد نتایج اولیه دارد