نام پژوهشگر: احمد استیری

معناگرایی در ارزیابی خودکار خلاصه سازهای ماشینی فارسی با بهره گیری از شبکه واژگان
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1391
  احمد استیری   محسن کاهانی

امروزه ابزارهایی نظیر خلاصه سازهای خودکار و مترجم های ماشینی، توجه زیادی را به خود جلب نموده اند و فعالیت های زیادی برای طراحی چنین ابزارهایی در سرتاسر جهان انجام شده است. در زبان فارسی هم نظیر دیگر زبان ها تلاش هایی در این زمینه صورت گرفته است. از این رو ارزیابی چنین ابزارهایی از اهمیت ویژه ای برخوردار است. در این پایان نامه، ابزاری به منظور ارزیابی خلاصه سازها ارائه شده است که البته قابلیت استفاده در دیگر کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات را نیز دارد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصه ها به صورت خودکار، از طریق مقایسه آنها با خلاصه های تولید شده توسط انسان (خلاصه های ایده آل) می باشد. این معیارها تعداد واحدهایی که بین خلاصه های سیستمی و خلاصه های انسانی هم پوشانی دارند نظیر n تایی ها ، رشته ی کلمات و جفت کلمات را محاسبه می نمایند. بدیهی است برای انجام مقایسه ی متون در سطح معنا در مورد خلاصه های چکیده ای، مقایسه ی ظاهر لغات کافی نمی باشد و بهره گیری از شبکه-ی واژگان، ضروری به نظر می رسد. در سیستم پیشنهادی شبکه واژگان "فردوس نت" با ایده ای مناسب، بکار گرفته شده و نتایج حاصل از ارزیابی را به طور قابل توجهی بهبود بخشیده است. ارزیابی سیستم پیشنهادی، نیازمند تهیه پیکره ای عظیم و تست ابزار بر روی اسناد این پیکره می باشد. پیکره "پاسخ" در دو بخش تک سندی و چندسندی شامل 1000 خلاصه ی تک سندی و 500 خلاصه ی چندسندی در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد توسط ابزاری تحت عنوان "خلاصه یار" تولید شد که نیمی از خلاصه ها گزینشی و نیمی دیگر چکیده ای می باشد. ارزیابی عملکرد ابزار طی روالی مشخص و استاندارد بر روی بخشی از پیکره فوق صورت گرفت که نتایج بدست آمده، بیانگر عملکرد قابل قبول ابزار بود.