نام پژوهشگر: ایمان خدادی

استخراج اطلاعات در سیستم های پرسش و پاسخ، با استفاده از یک رویکرد آماری- ممتیکی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده برق و کامپیوتر 1393
  ایمان خدادی   محمد صنیعی آباده

سیستم¬های پرسش و پاسخ، موتورهای جستجویی هستند که توانایی¬ ارائه¬ی پاسخی یکتا، کوتاه و دقیق، به یک پرسش را دارند. به عبارتی دیگر، پرسشی که یک موتور جستجو، با مجموعه¬ای از سندها پاسخ می¬دهد، یک سیستم پرسش و پاسخ، با یک پاراگراف، جمله، کلمه و ...، پاسخ می¬دهد. در این پایا¬ن¬نامه، یک فراسیستم با دامنه¬ی باز و مبتنی بر وب، برای پاسخ¬گویی به پرسش¬های انگلیسی¬ تعریفی و حقایق، ارائه شده است. چارچوبی که برای این فرآیند طراحی شده است، شامل سه مرحله ارزیابی است. در مرحله¬ی اول، پاراگراف¬های متن¬های بازیابی شده توسط یک موتور جستجو، ارزیابی شده و امکان پاسخ¬گویی به یک پرسش تعریفی، فراهم می¬شود. برای پاسخ¬گویی به یک پرسش حقایق، باید دو مرحله ارزیابی دیگر نیز اعمال شود که شامل ارزیابی جملات پاراگراف¬های برتر ارزیابی قبلی و ارزیابی کلمات استخراج شده از جملات برتر، می¬شود. در مراحل ارزیابی پاراگراف و جمله، می¬بایست تمامی موارد را برای یافتن اعضای نزدیک به پرسش، بررسی کرد. اما اگر تعداد متن¬های بازیابی شده، زیاد باشند، بررسی تمام موارد زمان¬گیر خواهد شد. به همین دلیل، یک روش جستجوی تکاملی برای این فرآیند ارائه شده است که مبتنی بر الگوریتم ممتیک است. محدوده¬ی تعداد پاراگراف و جمله¬ای که الگوریتم ممتیک با آن آزمایش شده است، حدودا 1000 الی 2000 است. دقت به دست آمده برای پاسخ¬گویی به پرسش¬های تعریفی، برای مجموعه¬ای از 100 سوال تعریفی و داده¬های وب، با الگوریتم ممتیک برابر 76%، و بدون الگوریتم ممتیک، 81% بود. دقت پرسش¬های حقایق نیز، برای پرسش¬های trec qa track 2007 و داده¬های وب، با استفاده از الگوریتم ممتیک، برابر 0.55 و بدون الگوریتم ممتیک، 59% بود. این نتایج با مقالات مشابه و نتایج trec نیز مقایسه شده است. در راستای افزایش دقت در سه مرحله¬ی ارزیابی، روشی مبتنی بر الگوریتم برنامه¬نویسی ژنتیک، برای تولید ویژگی¬ جدید از ویژگی¬های موجود و عملگرهای ریاضی، ارائه شده است. در ارزیابی¬ها این نتیجه حاصل شده که ویژگی¬های ترکیبی ساخته شده، دقت بهتری نسبت به ویژگی¬هایی دارند که از آن¬ها تشکیل شده¬اند. ارزیابی پاراگراف¬ها، جملات و کلمات، نیازمند یافتن وزن ویژگی¬های آن¬ها است و برای این فرآیند، از سه روش¬ دسته¬بندی مبتنی بر تفکیک، استفاده شده است. به منظور استخراج اطلاعات از جملات برای پاسخ¬گویی به سوالات حقایق، مجموعه¬ای از عبارات منظم ارائه شده و جزئیات تطابق این الگوها با سوالات trec 2004 و trec 2007، بررسی شده است.