ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی

نویسنده

چکیده مقاله:

متن نگاشته‌شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه‌های چندواحدی هستند که از اتصال یک واژه به واژه‌های بعدی حاصل می‌شوند. مشکل دیگر واحدهای چندواژه‌ای هستند که از جداشدگی واژه‌هایی که با هم یک واحد واژگانی تشکیل می‌دهند حاصل می‎گردند. این مقاله الگوریتمی را معرفی می‌کند که بتواند به‌طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به‌دست آورد. الگوریتمِ معرفی‌شده سه مرحله دارد. در مرحلۀ اول، واژه‌های چندواحدی از هم جدا می‌شوند و واحدهای چندواژه‌ای به یکدیگر متصل می‌شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی‌بر مدل زبانی معرفی شده‌است که کار تفکیک واژه‌های چندواحدی به واژه‌های مستقل را انجام می‌دهد. این الگوریتم باتوجه‌به چالش‌های پیش‌آمده بهبود می‌یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل‌گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه‌ای استفاده می‌کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می‌شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی‌شده برای واحدسازی دادۀ زبانیِ پایگاه داده‌های زبان فارسی استفاده شده‌است. با استفاده از این الگوریتم، 72.40 درصد خطای نگارشی واژه‌های دادة آزمون تصحیح شده‎است. دقت این تصحیح در دادۀ آزمون 97.80 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 0.02 درصد است.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

ارائة یک مدل معادلات تفاضلی برای بررسی دورهای تجاری

این مطالعه تلاشی برای تشخیص دورهای تجاری در اقتصاد ایران از طریق به‎مدل درآوردن ساختار همزمان عرضه و تقاضای کل پویا است. روش مدل سازی استفاده از فرایند پویا و همزمان عرضه و تقاضای کل بوده و در فضای تحلیل دورهای تجاری پولی، مدلی از نوع معادلات تفاضلی مرتبة اول طراحی، پیشنهاد و حل شده است. این مدل دو جواب خصوصی همگن و عمومی غیرهمگن دارد که به‎ترتیب در برآوردها وضعیت پایدار و نیز وضعیت اخلال‎های د...

متن کامل

ارائة روش جدید کنترلی مبتنی بر مد لغزشی برای ردیابی نقطة حداکثر توان تولیدی مولدهای فتوولتائیک

در سال‌های اخیر، استفاده از مولدهای فتوولتائیک برای تولید انرژی الکتریکی گسترش زیادی یافته است. یکی از موضوعات مهم، بهره‌برداری از مولدهای فتوولتائیک در نقطة حداکثر توان تولیدی است. با توجه به مشخصة غیرخطی ولتاژ - جریان سلول‌های خورشیدی، برای دستیابی به نقطة حداکثر توان تولیدی، لازم است پارامترهای مختلف تأثیرگذار بر شاخصه‌های ولتاژ و جریان کنترل شوند. در این مقاله، کنترل‌کنندة غیرخطی مد لغزشی ب...

متن کامل

نخستین پیکرۀ نقش‌های معنایی زبان فارسی

نخستین پیکرۀ نقش‌های معنایی زبان فارسی که حدود 30.000 جمله از زبان فارسی معاصررا شامل می‌شود، به صورت دستی برچسب‌گذاری شده‌است. این پیکره بر اساس مفهوم نقش‌هایمعنایی فیلمور، لایه‌ای از اطلاعات مربوط به رابطۀمحمول‌‌ـ‌‌موضوعرا به ساخت نحوی پیکرۀ وابستگی اضافه می‌کند. دراین مجموعه، افعال، اسم‌های گزاره‌ای و صفت‌های گزاره‌ای به‌عنوان محمول‌های جملهدر نظر گرفته شده و بنا بر نوع رویدادشان، در جمله تع...

متن کامل

ارائة یک مدل معادلات تفاضلی برای بررسی دورهای تجاری

این مطالعه تلاشی برای تشخیص دورهای تجاری در اقتصاد ایران از طریق به‎مدل درآوردن ساختار همزمان عرضه و تقاضای کل پویا است. روش مدل سازی استفاده از فرایند پویا و همزمان عرضه و تقاضای کل بوده و در فضای تحلیل دورهای تجاری پولی، مدلی از نوع معادلات تفاضلی مرتبة اول طراحی، پیشنهاد و حل شده است. این مدل دو جواب خصوصی همگن و عمومی غیرهمگن دارد که به‎ترتیب در برآوردها وضعیت پایدار و نیز وضعیت اخلال‎های د...

متن کامل

یک روش جدید برای انتخاب ویژگی مبتنی بر منطق فازی

چکیده: انتخاب ویژگی یکی از چالش برانگیز ترین و از مهمترین فعالیت‌ها در توسعه یادگیری ماشین و تشخیص الگوست. معیارهای ارزیابی ویژگی نقش بسیار مهمی برای ساخت یک الگوریتم انتخاب ویژگی دارند. در این مقاله یک معیار انتخاب ویژگی اصلاح شده با استفاده از منطق فازی برای انتخاب تعداد ویژگی‌های مورد نیاز ارائه می شود. این معیار به شکل غیر فازی در تحقیقات قبلی استفاده می‌شود، اما در این مقاله با تعریف تعداد...

متن کامل

ارائه یک روش ترکیبی مبتنی بر تبدیل موجک گسسته برای پیش‌بینی بار الکتریکی با استفاده از یک مدل دوبعدی

چکیده: پیش­بینی میزان تقاضای انرژی الکتریکی و شناسایی روند تغییرات آن، عامل کلیدی و مؤثری در برنامه­ریزی، طراحی و بهره­برداری از  شبکه قدرت است. بی­گمان آگاهی از میزان مصرف انرژی الکتریکی، اساس و زیربنای برنامه­ریزی و تصمیم­گیری در سیستم­های قدرت است. در این مقاله با معرفی روش ترکیبی تبدیل موجک و حداقل مربعات خطا و ارائه یک مدل دوبعدی برای بار، پیش­بینی پیک ماهیانه بار استان زنجان در افق بلندمد...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 14  شماره 27

صفحات  21- 50

تاریخ انتشار 2019-05-22

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023