استخراج خودکار جملات همتراز انگلیسی-فارسی از متون مقایسهای با بهرهبرداری از اطلاعات نحوی
نویسندگان
چکیده مقاله:
پیکرههای موازی همواره از غنیترین منابع در مباحث پردازش زبان طبیعی محسوب میشوند. این نوع پیکرهها شامل متون ترجمهشدۀ دو یا چند زبان هستند که در سطوح مختلف کلمه، عبارت و یا جمله همترازشدهاند. علیرغم کاربرد فراوان این نوع پیکرهها در مطالعات مختلف از جمله پژوهشهای زبانی، ترجمة ماشینی آماری و سامانههای خودکار بازیابی اطلاعات میان زبانی، متأسفانه همواره پژوهشگران با کمبود پیکرههای موازی مواجه بودهاند. در این راستا، در پژوهش حاضر سعی شده است بهمنظور تولید پیکره موازی با بهرهگیری از اطلاعات نحوی، روشی خودکار برای استخراج جملات همترازانگلیسی/فارسی از متون مقایسهای ارائه شود. در این روش، با ساخت بردار ویژگی با بهرهگیری از اطلاعات نحوی جملات، یک مدل همترازی آموزش داده میشود. دقت مدل همترازی،در بهترین حالت، به شکل عملیاتی روی دادههای آزمون (208 عدد جفت جمله) 77% و روی دادههای آموزشی (830 عدد جفت جمله) 7/97 % محاسبه شد. از آنجایی که حجم دادههای طلایی بسیار کوچک بود روش n-fold cross validation در مورد تمام الگوریتمهای آموزش مورد استفاده قرار گرفت. بهمنظور افزایش دقت، از یک الگوریتم جستوجوی شباهت لغوی جملات نیز استفاده شد که دقت را روی دادههای آزمون از 77% به 18/85% افزایش داد. پژوهش حاضر، با بهکارگیری مدل همترازی بهدستآمده، به تولید ابزار همترازی دانشگاه اصفهان منجر شد، که میتواند بهمنظور خودکفایی در تولید پیکرههای موازی مورداستفاده محققین حوزه پردازش زبان فارسی قرار گیرد.
منابع مشابه
استخراج خودکار عبارتهای کلیدی از متون مقالههای فارسی
در پژوهش حاضر، عبارتهای کلیدی از متون مقالههای فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونهای که در طول زمان مرتباً به کارایی آن افز...
متن کاملرویکردی کمینهگرا به نوعبندی نحوی جملات امری در فارسی
مقالة حاضر تلاش میکند شیوة نوعبندی جملات امری را در گونة گفتاری فارسی در قالب برنامة کمینهگرا تبیین نماید. از اینرو، با الگوگیری از رویکرد هان و شواگر سازوکار حاکم بر جوازدهی جملات امری در فارسی بررسی میگردد. چارچوب نظری این پژوهش، نظریة بازبینی مشخصهها و فرضیة گروه متممنمای انشقاقی ریتزی (1997) است. ابتدا استدلال میشود که در ساختهای امریِ بینشان و نشاندار، حرکت آشکار فعل به هستة گروه...
متن کاملمهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها
در این مقاله ضمن تبیین فرایند مهندسی هستی شناسیها، استخراج روابط معنایی با تکیه بر روشهای مبتنی بر الگو، مطالعه شده است. نمونهای از متون تخصصی فارسی در حوزة ربط تحلیل و روابط معنایی موجود در آن استخراج و دستهبندی گردید. همچنین، تعیین میزان پیدایی روابط معنایی در نمونة مورد تحلیل، در پاسخ به دومین پرسش پژوهش انجام پذیرفت. امکان استخراج و تعیین روابط معنایی در نمونه مورد تحلیل، تأیید ش...
متن کاملتشخیص خودکار جنسیت نویسنده در متون فارسی
Gigantic amount of textual data being transfers in web everyday. like other communities,cyberspace is vulnerable to attacks, false information and deception.it becomes increasingly important to design an efficient method to trace identity in this community.to investigate the problem of gender identification,we propose 48 feature,and design three machine learning algorithms.the results of study ...
متن کاملارائه روشی جدید برای شاخصگذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشهبندی متون
Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 10 شماره 2
صفحات 15- 36
تاریخ انتشار 2018-09-23
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023