نام پژوهشگر: الهام فکری

استخراج اطلاعات از ویکی پدیا و گسترش شبکه واژگانی فارسی با نمونه ها جهت استفاده در یک سامانه پرسش و پاسخ به زبان فارسی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1391
  الهام فکری   نوشین ریاحی

هدف تحقیق صورت گرفته، ارائه یک بستر اطلاعاتی است که بتواند در یک سامانه پرسش و پاسخ به زبان فارسی مورد استفاده قرار گیرد و پرسش های با انواع تعریف شده را بتواند پاسخ دهد. دامنه اطلاعات استخراج شده و در نتیجه پرسش های قابل پاسخگویی از نظر موضوع محدود نبوده و به عبارتی عام می باشد. یک دسته پرکاربرد از سامانه های پرسش و پاسخ، دسته ای هستند که روی پرسش از حقایق متمرکزند. پرسش و پاسخ در این سامانه ها روی مواردی چون افراد، مکان ها، وقایع و ... صورت می گیرد که با نام نمونه ها معروف اند. نمونه ها موجودیت هایی متعلق به یک کلاس پدر می باشند که در صورتی که با دیدگاه هستان شناسانه به آنها بنگریم در سلسله مراتب هستان شناسی در برگ قرار می گیرند و فرزندی نخواهند داشت. یک منبع مناسب در پاسخگویی به پرسش های عمومی دانشنامه ها هستند از ویکی پدیا به عنوان یک دانشنامه آزاد و حاوی مقالات در موضوعات مختلف استفاده شده است. منبع دیگر قابل استفاده در پرسش و پاسخ، هستان شناسی های عمومی هستند که شبکه واژگانی فارسی (فارس نت) به عنوان نمونه ای از این دسته مورد استفاده قرار گرفته است. فارس نت حاوی واژگان عمومی فارسی در قالب دسته های هم معنا می باشد که بین این دسته ها روابط مختلف و از جمله روابط سلسله مراتبی وجود دارد. تعداد نمونه های موجود در فارس نت محدود می باشد و از این رو به تنهایی در پرسش و پاسخ کافی نمی باشد و لازم است با نمونه ها گسترش یابد. از این رو بستر اطلاعاتی به منظور استفاده در سامانه پرسش و پاسخ تهیه می شود که متشکل از فارس نت توسعه یافته با نمونه-ها می باشد. بدین ترتیب که با استفاده از مقالات ویکی پدیای فارسی که حاوی نمونه های بسیاری از کلاس های موجود در فارس نت می باشد، نمونه ها و اطلاعات آنها استخراج شده و به کلاس پدر خود در فارس نت متصل می شود. همچنین برای نمونه های اضافه شده اطلاعاتی چون زوج های صفت-ارزش، یک جمله توضیحی و مفاهیم مرتبط با آن در فارس نت استخراج می شود. روی بستر اطلاعات فراهم شده یک مولفه پرسش و پاسخ با قابلیت پاسخ به سه نوع مشخص از پرسش ها قرار می گیرد. این انواع، پرسش از چیستی، پرسش از نمونه ها و پرسش از ارزش های صفات می باشند. از قابلیت های بستر اطلاعاتی فراهم شده این است که به دلیل اینکه نمونه های استخراج شده به یک شبکه واژگانی متصل شده اند، می توان از ویژگی های شبکه واژگانی در فهم پرسش و همچنین ارائه پاسخ استفاده کرد و بدین ترتیب به پرسش های پیچیده ای که نیاز به نوعی استنتاج دارند پرداخت.