تکنیک‌های خلاصه‌سازی چندسندی خودکار متون فارسی مبتنی بر الگوریتم‌های فرااکتشافی

Authors

سهیلا کرباسی گروه کامپیوتر- دانشکده فنی و مهندسی-دانشگاه گلستان

فاطمه آهنگری دانشکده فنی و مهندسی، دانشگاه گلستان، گرگان، ایران

مهدی یعقوبی دانشکده فنی و مهندسی، دانشگاه گلستان، گرگان، ایران

Abstract:

هدف:ارائه الگوی خلاصه‌سازی استاندارد متون فارسی با رویکرد تبدیل مسئله خلاصه‌سازی به مسئله بهینه‌سازی توسط الگوریتم‌های فرااکتشافی سازگار. روش‌شناسی: در این پژوهش از اسناد استاندارد پیکره چندسندی «پاسخ» که شامل 50 موضوع مختلف از انواع گونه‌های خبری از خبرگزاری‌های پرببینده ایران، برای ارزیابی استفاده شده است. هر موضوع حاوی 20 سند و همچنین 5 خلاصه چکیده‌ای و 5 خلاصه استخراجی است. ابتدا عملیات پیش‌پردازش روی متون ورودی انجام و خلاصه‌های اولیه تولید شدند. این کار به‌کمک معیار TF-ISF، معیارهای خوانایی و انسجام جملات، ویژگی شباهت با عنوان، ویژگی موقعیت جمله در متن، و ویژگی طول جمله انجام شد. با توجه به هر یک از این معیارها، وزنی به هر یک از جملات خلاصه اختصاص داده و ماتریس شباهت ایجاد شد. سپس، خروجی سیستم استخراج توسط دو الگوریتم فرااکتشافی ژنتیک و جستجوی فاخته برای رسیدن به خلاصه‌ نهایی پردازش شد. درنهایت، خروجی به‌دست‌آمده از مرحله قبل به‌کمک ابزار ارزیابی Rouge و مقایسه با خلاصه‌های انسانی تحلیل شدند. یافته‌ها: میانگین همه مقادیر به‌دست‌آمده از ابزار ارزیابی Rouge در محاسبه میزان هم‌پوشانی نمونه‌های مشترک خلاصه‌های انسانی و خلاصه ماشینی توسط الگوریتم جستجوی فاخته بیشتر از مقادیر به‌دست‌آمده توسط الگوریتم ژنتیک و همچنین سامانه خلاصه‌ساز برخط ایجاز بودند. از میان هشت معیار موجود در این ابزار، دو معیار ارزیابی طولانی‌ترین زیررشته مشترک با مقدار 0.33 و تعداد لغات مشابه در متن با مقدار 0.40 نتایج بهتری نسبت به بقیه معیارها داشتند. نتیجه‌گیری: نتایج حاصل از مقایسه دو الگوریتم به‌کاررفته، حاکی از عملکرد بهتر الگوریتم جستجوی فاخته در هر یک از معیارهای ابزار Rouge است. از طرفی مقایسه زمانی نتایج نشان می‌دهد که میانگین زمانی محاسبه‌شده برای خلاصه‌سازی توسط سیستم پیشنهادی با الگوریتم جستجوی فاخته کمتر است.

Upgrade to premium to download articles

Already have an account?login

similar resources

تشخیص خودکار جنسیت نویسنده در متون فارسی

Gigantic amount of textual data being transfers in web everyday. like other communities,cyberspace is vulnerable to attacks, false information and deception.it becomes increasingly important to design an efficient method to trace identity in this community.to investigate the problem of gender identification,we propose 48 feature,and design three machine learning algorithms.the results of study ...

full text

خلاصه سازی خودکار متون فارسی مبتنی بر هستی شناسی

با توجه به گسترش روزافزون اطلاعات در دسترس از طریق اینترنت، لزوم استفاده از روش های خلاصه سازی خودکار متن، بیش از پیش احساس می شود. روش هایی که با استخراج مهمترین مطالب موجود در اسناد مانع از مطالعه کامل حجم انبوه از آنها شوند. خلاصه سازی عبارت است از فشرده سازی متن (متون) منبع و تولید یک نسخه کوتاه تر از آن به نحوی که محتوای اطلاعاتی آن حفظ شود. اغلب سیستم های خلاصه ساز با استفاده از روش های س...

15 صفحه اول

تشخیص خودکار جنسیت نویسنده در متون فارسی

با گسترش روز افزون استفاده از اینترنت، شاهد تبادل هزاران گیگابایت اطلاعات متنی در فضای مجازی هستیم. فضای سایبر این امکان را به اشخاص می دهد که هویت حقیقی خود را مخفی کنند و با هویت ساختگی جدیدی وارد آن شوند. از این رو اهمیت حفظ امنیت این فضا، کنترل بر محتوای تولید شده توسط کاربران و شناسایی مشخصات تولیدکنندگان محتوا هر روز پررنگتر می شود. موضوع مورد بررسی در این تحقیق که مربوط به حوزه شناسایی ن...

full text

استخراج خودکار عبارتهای کلیدی از متون مقاله‌های فارسی

در پژوهش حاضر، عبارتهای کلیدی از متون مقاله‌های فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونه‌ای که در طول زمان مرتباً به کارایی آن افز...

full text

سیستم خودکار خلاصه ساز متون فارسی

دراین پژوهش روشی ترکیبی از الگوریتم ژنتیک و شبکه عصبی rbf برای خلاصه سازی استخراجیِ متون فارسی پیشنهاد شده است، که ابتدا به امتیازدهی پاراگراف ها پرداخته می شود، سپس پاراگراف های برتر را انتخاب کرده و به محاسبه امتیاز جملات آن ها می پردازد. همچنین جهت تعیین میزان اهمیت هر یک از ویژگی های جملات از یک شبکه عصبی mlp بهره گرفته شده است. سپس با استفاده از یک شبکه عصبی rbf به گزینش جملات برتر به عنوان...

مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی

Purpose: Each language has its own problems. This leads to consider appropriate models for automatic indexing of every language. These models should concern the exhaustificity and specificity of indexing. This paper aims at introduction and evaluation of a model which is suited for Persian automatic indexing. This model suggests to break the text into the particles of candidate terms and to c...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}

Journal title

مطالعات ملی کتابداری و سازماندهی اطلاعات

volume 30 issue 2

pages 58- 80

publication date 2019-07-23

unfollow

{@ msg @}

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

خلاصه‌سازی خودکار متن خلاصه استخراجی الگوریتم‌های فرااکتشافی الگوریتم ژنتیک الگوریتم جستجوی فاخته ابزار ارزیابی Rouge

Hosted on Doprax cloud platform doprax.com