نام پژوهشگر: مهدخت غفاری ها

بهبود خلاصه سازی متن با رویکرد هستان شناسی و یادگیری ماشین
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی 1390
  مهدخت غفاری ها   حسن ختن لو

خلاصه سازی متن، اطلاعات مورد نیاز کاربر از متن را، در یک فرم فشرده در اختیاش قرار می دهد. روش های مختلفی برای ساخت خلاصه در مقالات بیان شده است. یکی از جدیدترین روش ها در خلاصه سازی متون، استفاده از پایگاه دانش خارجی مانند هستی شناسی است. در این پایان نامه، یک روش گزینشی مبتنی بر هستی شناسی و خوشه بندی برای خلاصه سازی معرفی می کنیم. همچنین محتوی خلاصه می تواند عمومی یا مبتنی بر پرس وجوی کاربر باشد. این روش بر پایه نگاشت متن به مفاهیم دامنه متن و نمایش سند و جملات آن به صورت گراف است. خوشه بندی مفاهیم سند بر پایه ارتباطاتشان در سلسله مراتب هستی شناسی، صورت می گیرد و معیار شباهت برای خوشه-بندی با توجه به ماهیت سلسله مراتبی داده ها طوری انتخاب شده است که بهترین خوشه بندی را نتیجه می دهد. این خوشه بندی مناسب، کمک شایانی به گزینش جملات می کند. از روش های خوشه بندی سلسله مراتبی، فازی و گراف استفاده شده است. در گزینش جملات هم سه روش مختلف درنظرگرفته شده است که یک روش، شامل گزینش برمبنای اطلاعات هستی شناسی بدون محاسبه ویژگی های متنی جملات است و دو روش دیگر بر مبنای ویژگی های متنی جملات که در یکی وزن ویژگی ها بصورت تجربی بدست آمده اند و در دیگری از یک سیستم فازی بدست می آیند. این خلاصه ساز روی 8 مجموعه خبری که هرکدام شامل 2 تا 6 خبر هستند، مورد ارزیابی قرار گرفت. در نتیجه مقایسه روش های خوشه بندی بکاررفته مشخص شد که خوشه بندی سلسله مراتبی بهترین خوشه بندی را ارائه میدهد.از ارزیابی مبتنی بر سودمندی برای مقایسه کارایی روش خودمان با سه روش دیگر استفاده کردیم. این ارزیابی ها نشان دهنده بهبود حدوداً 0.20کارایی در تولید خلاصه عمومی نسبت به فارسی سام، 0.25 در تولید خلاصه مبتنی بر عنوان نسبت به سیستم تقدیری و 0.12 در تولید خلاصه چند سندی است.