نام پژوهشگر: مژگان شبان زاده حبیب آبادی

گسترش معنایی پرس و جو
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده فنی و مهندسی 1389
  مژگان شبان زاده حبیب آبادی   محمدعلی نعمت بخش

بازیابی اطلاعات یکی از اصلی ترین نیازهای کاربران است؛ روزانه کاربران زیادی به جستجو در وب و دیگر منابع به منظور پاسخ گویی به نیاز اطلاعاتی خود می پردازند. مسائل موجود در زبان طبیعی از جمله عدم تطابق لغوی، کلمات چند معنایی، کوتاه و مبهم بودن پرس وجو و دانش ناقص کاربران از موضوع مورد نظر در بازیابی اطلاعات منجر به بازیابی نتایج نامرتبط و کاهش رضایت کاربران از نتایج بازیابی شده می شود. گسترش پرس وجو با بررسی پرس وجوهای کاربران و افزودن خودکار کلمات مناسب و با ارزش به آن ها کمک می کند تا اسناد مرتبط با نیاز و منظور کاربر جستجو و بازیابی گردد. اگر گسترش پرس وجو به صورت هوشمندانه ای انجام نشود، با انحراف پرس وجو و فاصله گرفتن آن از منظور کاربر منجر به بازیابی نتایج نامرتبط تری نسبت به نتایج پرس وجوی اولیه خواهد شد. مساله ی دیگری که در گسترش پرس وجو باید به آن توجه کرد این است که در مورد پرس وجوهای مشتمل بر بیش از یک کلمه، انتخاب واژگان گسترشی که تنها با یکی از این کلمات مرتبط باشند باعث رخداد مشکل خروج از تعادل پرس وجو خواهد شد. در این رساله، روش جدیدی برای گسترش معنایی پرس وجو به منظور تطبیق دادن پرس وجو با منظور کاربر ارائه شده است. روش پیشنهادی با استفاده از یک الگوریتم رفع ابهام مبتنی بر هستی شناسی به رفع ابهام از کلمات پرس وجو می پردازد. سپس، به منظور در نظر گرفتن روابط بین لغات در پرس وجوهای چند کلمه ای و اجتناب از مشکل خروج از تعادل پرس وجو به گروه بندی کلمات آن بر مبنای تشابه معنایی بین آن ها می پردازد. در ادامه با استفاده از روابط موجود در شبکه واژگان، یک شبکه ی معنایی از واژگان هر گروه ایجاد شده از کلمات پرس وجو و لغات مرتبط با آن ها از نظر معنایی می سازد. این روش بر طبق روابط و سلسله مراتب شبکه ی ساخته شده، مهمترین کلمات برای گسترش پرس وجو را مشخص می کند. از بین کلمات انتخاب شده، کلماتی که باعث ایجاد ابهام و نویز در پرس وجو نشوند، به عنوان کلمات گسترش انتخاب می-شوند و وزن مناسبی برای آن ها محاسبه می شود. به این ترتیب پرس وجوی گسترش یافته ساخته می شود و عملیات جستجو با این پرس وجوی جدید انجام می شود. این روش با در نظر گرفتن معیارهای فراخوانی و دقت بر روی مجموعه داده ی time ارزیابی شده است. نتایج ارزیابی نشان دهنده ی افزایش نرخ فراخوانی و دقت بازیابی می باشد.