بهبود خلاصه سازی متن با رویکرد هستان شناسی و یادگیری ماشین

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی
  • نویسنده مهدخت غفاری ها
  • استاد راهنما حسن ختن لو
  • سال انتشار 1390
چکیده

خلاصه سازی متن، اطلاعات مورد نیاز کاربر از متن را، در یک فرم فشرده در اختیاش قرار می دهد. روش های مختلفی برای ساخت خلاصه در مقالات بیان شده است. یکی از جدیدترین روش ها در خلاصه سازی متون، استفاده از پایگاه دانش خارجی مانند هستی شناسی است. در این پایان نامه، یک روش گزینشی مبتنی بر هستی شناسی و خوشه بندی برای خلاصه سازی معرفی می کنیم. همچنین محتوی خلاصه می تواند عمومی یا مبتنی بر پرس وجوی کاربر باشد. این روش بر پایه نگاشت متن به مفاهیم دامنه متن و نمایش سند و جملات آن به صورت گراف است. خوشه بندی مفاهیم سند بر پایه ارتباطاتشان در سلسله مراتب هستی شناسی، صورت می گیرد و معیار شباهت برای خوشه-بندی با توجه به ماهیت سلسله مراتبی داده ها طوری انتخاب شده است که بهترین خوشه بندی را نتیجه می دهد. این خوشه بندی مناسب، کمک شایانی به گزینش جملات می کند. از روش های خوشه بندی سلسله مراتبی، فازی و گراف استفاده شده است. در گزینش جملات هم سه روش مختلف درنظرگرفته شده است که یک روش، شامل گزینش برمبنای اطلاعات هستی شناسی بدون محاسبه ویژگی های متنی جملات است و دو روش دیگر بر مبنای ویژگی های متنی جملات که در یکی وزن ویژگی ها بصورت تجربی بدست آمده اند و در دیگری از یک سیستم فازی بدست می آیند. این خلاصه ساز روی 8 مجموعه خبری که هرکدام شامل 2 تا 6 خبر هستند، مورد ارزیابی قرار گرفت. در نتیجه مقایسه روش های خوشه بندی بکاررفته مشخص شد که خوشه بندی سلسله مراتبی بهترین خوشه بندی را ارائه میدهد.از ارزیابی مبتنی بر سودمندی برای مقایسه کارایی روش خودمان با سه روش دیگر استفاده کردیم. این ارزیابی ها نشان دهنده بهبود حدوداً 0.20کارایی در تولید خلاصه عمومی نسبت به فارسی سام، 0.25 در تولید خلاصه مبتنی بر عنوان نسبت به سیستم تقدیری و 0.12 در تولید خلاصه چند سندی است.

منابع مشابه

بررسی هستان شناسی های توسعه یافته مبتنی بر اصول هستان شناسی های منبع باز زیست پزشکی

Background and Aim: Ontologies facilitate data integration, exchange, searching and querying. Open Biomedical Ontologies (OBO) Foundry is a solution for creating reference ontologies. In this foundry, the design of ontologies is based on established principles which allow for their interactions as a single system. The purpose of this study is to determine the main features of ontologies develop...

متن کامل

کاربرد الگوریتم‎های یادگیری ماشین در متن‎کاوی با رویکرد آنالیز احساس

تخصیص نظرها و متن‎های منتشر شدۀ کاربران در فضای مجازی به طبقاتی با احساسات مثبت یا منفی، در تحقیق‌های مربوط به متن‌کاوی اهمیت بسیار زیادی دارد. هدف این مقاله، استفاده و مقایسۀ روش‌های یادگیری ماشین در طبقه‌بندی متن‎های فارسی بر اساس احساسات کاربران فعال در فضای مجازی است. داده‌های پژوهش، مجموعه نظرهای منتشرشده دربارۀ فیلم‌های ایرانی و خارجی در بازۀ زمانی 1392 تا 1395 در سایت‌های سینمایی و نقد ف...

متن کامل

تطابق هستان شناسی با رویکرد هوش جمعی

امروزه با توجه یه کاربرد وسیع هستان شناسی ها به ساخت و توسعه آنها توجه زیادی می شود. اما به این دلیل که افراد مختلفی با درک و کلمات متفاوتی هستان شناسی ها را توسعه می دهند ممکن است دو هستان شناسی که یک دامنه را توصیف می کنند دارای ساختار و واژگان متفاوت باشند. ایجاد درک مشترک بین هستان شناسی ها موجب ایجاد سامانه های تطابق هستان شناسی ها شده است. آن چه که در توسعه سامانه های تطابق تاکنون مغفول م...

خلاصه سازی خودکار متن انگلیسی

خلاصه سازی یک فرآیند تصمیم گیری است که در آن برای هر جمله چندین معیار در نظر گرفته می شود و ارزش هر جمله در معیارها سنجیده می شود. سپس با سبک و سنگین کردن نتایج ارزیابی ها جملات برای حضور در خلاصه انتخاب می شوند. در این پایان نامه معماری جدیدی برای سیستم های خلاصه ساز ارائه شده است. در این معماری یک لایه ی تصمیم گیرنده به عنوان آخرین لایه در سیستم، مسئولیت امتیازدهی به جملات بر اساس امتیاز هر...

15 صفحه اول

بهبود خلاصه سازی متن به زبان فارسی با روش عامل بندی ماتریس

با گسترش حجم اسناد و اطلاعات متنی نیاز به سیستم هایی که قادر به تولید خلاصه خودکار از متون بوده به نحوی که اطلاعات کلیدی موجود در آن را پوشش دهد و جایگزینی برای مطالعه متن اصلی شود، بیش ازپیش مورد تأکید قرارگرفته است. خلاصه سازی خودکار متن یکی از زمینه های کاری پردازش زبان های طبیعی است و وظیفه ی آن ارائه یک نسخه کوتاه شده از یک (یا چند) سند بوده به نحوی که حاوی اطلاعات مهم موجود در آن باشد. ...

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023