نام پژوهشگر: سارا ایزدی بروجنی
سارا ایزدی بروجنی محمد قاسم زاده
از جنبه های مهم در فناوری اطلاعات، امکان یافتن پاسخ سوالات از بستره های آن میباشد. فضای اینترنت شامل حجم عظیمی از اطلاعات و از آن جمله جفتهای پرسش و پاسخ است. لذا این قابلیت که بتوان سوال معادل و یا سوال مشابه با سوال کاربر را به سرعت یافته و پاسخ مربوطه را ارائه داد اهمیت ویژه ای یافته است. در این زمینه کوششهایی برای سایر زبانها صورت پذیرفته و آن جام آن برای زبان فارسی نیز الزامی میباشد. در روشهای ارائه شده برای تطبیق سوال، روشهای مبتنی بر پردازش زبانهای طبیعی و بازیابی اطلاعات بالاترین کارایی را دارند. در این پژوهش روشی مبتنی بر ترکیب فضای برداری و تعمیمی از مدلهای زبانی بای گرم و تری گرم برای تطابق سوال فارسی ارائه میگردد. روش مورد نظر پیاده سازی و بر روی دادههای محک انبوه ارزیابی شده اند. دادههای محک شامل بایگانی سرویس پرسش و پاسخ برخط راسخون، که حاوی بیش از هجده هزار جفت پرسش و پاسخ است، میباشد. حجم پردازش و سایز ورودی لزوم به کارگیری الگوریتمهای کارآمد با درجه پیچیدگی زمانی و هم چنین درجه پیچیدگی حافظه پایینتری را ملزم میداشت که از جمله نتایج این تحقیق میباشند. از آن جایی که تمرکز اصلی در این تحقیق، ارزیابی کارایی مدلهای زبانی است، میزان بهبود تطابق سوال نسبت به روشی که تنها فضای برداری استفاده شود نیز مقایسه شده است. نتایج این مقایسه نشان از بهبود معیارهای دقت و فراخوانی با استفاده از مدلهای زبانی ارائه شده است. کارایی این مدل را میتوان تا حدود زیادی شبیه به کارایی مدلهای تطبیق سوال ارائه شده در سایر زبانها دانست که اکثر این مدلها، از ابزارهای پیشرفته پردازش زبان طبیعی استفاده میکنند.