ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی
نویسنده
چکیده مقاله:
متن نگاشتهشدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژههای چندواحدی هستند که از اتصال یک واژه به واژههای بعدی حاصل میشوند. مشکل دیگر واحدهای چندواژهای هستند که از جداشدگی واژههایی که با هم یک واحد واژگانی تشکیل میدهند حاصل میگردند. این مقاله الگوریتمی را معرفی میکند که بتواند بهطور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را بهدست آورد. الگوریتمِ معرفیشده سه مرحله دارد. در مرحلۀ اول، واژههای چندواحدی از هم جدا میشوند و واحدهای چندواژهای به یکدیگر متصل میشوند. برای این مرحله، یک الگوریتم پایۀ مبتنیبر مدل زبانی معرفی شدهاست که کار تفکیک واژههای چندواحدی به واژههای مستقل را انجام میدهد. این الگوریتم باتوجهبه چالشهای پیشآمده بهبود مییابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیلگرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژهای استفاده میکند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده میشود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفیشده برای واحدسازی دادۀ زبانیِ پایگاه دادههای زبان فارسی استفاده شدهاست. با استفاده از این الگوریتم، 72.40 درصد خطای نگارشی واژههای دادة آزمون تصحیح شدهاست. دقت این تصحیح در دادۀ آزمون 97.80 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 0.02 درصد است.
منابع مشابه
ارائة یک مدل معادلات تفاضلی برای بررسی دورهای تجاری
این مطالعه تلاشی برای تشخیص دورهای تجاری در اقتصاد ایران از طریق بهمدل درآوردن ساختار همزمان عرضه و تقاضای کل پویا است. روش مدل سازی استفاده از فرایند پویا و همزمان عرضه و تقاضای کل بوده و در فضای تحلیل دورهای تجاری پولی، مدلی از نوع معادلات تفاضلی مرتبة اول طراحی، پیشنهاد و حل شده است. این مدل دو جواب خصوصی همگن و عمومی غیرهمگن دارد که بهترتیب در برآوردها وضعیت پایدار و نیز وضعیت اخلالهای د...
متن کاملارائة روش جدید کنترلی مبتنی بر مد لغزشی برای ردیابی نقطة حداکثر توان تولیدی مولدهای فتوولتائیک
در سالهای اخیر، استفاده از مولدهای فتوولتائیک برای تولید انرژی الکتریکی گسترش زیادی یافته است. یکی از موضوعات مهم، بهرهبرداری از مولدهای فتوولتائیک در نقطة حداکثر توان تولیدی است. با توجه به مشخصة غیرخطی ولتاژ - جریان سلولهای خورشیدی، برای دستیابی به نقطة حداکثر توان تولیدی، لازم است پارامترهای مختلف تأثیرگذار بر شاخصههای ولتاژ و جریان کنترل شوند. در این مقاله، کنترلکنندة غیرخطی مد لغزشی ب...
متن کاملنخستین پیکرۀ نقشهای معنایی زبان فارسی
نخستین پیکرۀ نقشهای معنایی زبان فارسی که حدود 30.000 جمله از زبان فارسی معاصررا شامل میشود، به صورت دستی برچسبگذاری شدهاست. این پیکره بر اساس مفهوم نقشهایمعنایی فیلمور، لایهای از اطلاعات مربوط به رابطۀمحمولـموضوعرا به ساخت نحوی پیکرۀ وابستگی اضافه میکند. دراین مجموعه، افعال، اسمهای گزارهای و صفتهای گزارهای بهعنوان محمولهای جملهدر نظر گرفته شده و بنا بر نوع رویدادشان، در جمله تع...
متن کاملارائة یک مدل معادلات تفاضلی برای بررسی دورهای تجاری
این مطالعه تلاشی برای تشخیص دورهای تجاری در اقتصاد ایران از طریق بهمدل درآوردن ساختار همزمان عرضه و تقاضای کل پویا است. روش مدل سازی استفاده از فرایند پویا و همزمان عرضه و تقاضای کل بوده و در فضای تحلیل دورهای تجاری پولی، مدلی از نوع معادلات تفاضلی مرتبة اول طراحی، پیشنهاد و حل شده است. این مدل دو جواب خصوصی همگن و عمومی غیرهمگن دارد که بهترتیب در برآوردها وضعیت پایدار و نیز وضعیت اخلالهای د...
متن کاملیک روش جدید برای انتخاب ویژگی مبتنی بر منطق فازی
چکیده: انتخاب ویژگی یکی از چالش برانگیز ترین و از مهمترین فعالیتها در توسعه یادگیری ماشین و تشخیص الگوست. معیارهای ارزیابی ویژگی نقش بسیار مهمی برای ساخت یک الگوریتم انتخاب ویژگی دارند. در این مقاله یک معیار انتخاب ویژگی اصلاح شده با استفاده از منطق فازی برای انتخاب تعداد ویژگیهای مورد نیاز ارائه می شود. این معیار به شکل غیر فازی در تحقیقات قبلی استفاده میشود، اما در این مقاله با تعریف تعداد...
متن کاملارائه یک روش ترکیبی مبتنی بر تبدیل موجک گسسته برای پیشبینی بار الکتریکی با استفاده از یک مدل دوبعدی
چکیده: پیشبینی میزان تقاضای انرژی الکتریکی و شناسایی روند تغییرات آن، عامل کلیدی و مؤثری در برنامهریزی، طراحی و بهرهبرداری از شبکه قدرت است. بیگمان آگاهی از میزان مصرف انرژی الکتریکی، اساس و زیربنای برنامهریزی و تصمیمگیری در سیستمهای قدرت است. در این مقاله با معرفی روش ترکیبی تبدیل موجک و حداقل مربعات خطا و ارائه یک مدل دوبعدی برای بار، پیشبینی پیک ماهیانه بار استان زنجان در افق بلندمد...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 14 شماره 27
صفحات 21- 50
تاریخ انتشار 2019-05-22
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023