بازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری

نویسندگان

چکیده مقاله:

Abstract Text recognition has been one of the growing research topics in recent years. Many of these researches have focused on recognition of letters and sub-words as a basis for identifying larger text structures such as words, phrases and sentences. This thesis presents a new method in which the recognized sub-words are combined in order to provide meaningful words and sentences in Farsi texts. Since there may be more than one meaningful combination, the potential meaningful sentences are filtered using Farsi grammatical rules. In the sub-word recognition stage, a double scan method is exploited while the words are extracted using a database of frequent Farsi words. In the last stage a 2 and 3-gram method as well as Farsi grammatical rules are employed to identify the most meaningful sentence from all potential candidates. Experiments have proved the accuracy of the exploited method to be more than 85 percent. Keywords: Text recognition, Persian, Persian language modeling, Natural language processing

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری

بازشناسی متون، در سال های اخیر بسیار مورد توجه قرار گرفته است. ارائه الگوریتم های بازشناسی برگرفته از ساختار گرامری و معنایی این زبان می تواند روش موثری در پردازش های دیگر مربوط به خط و زبان فارسی باشد. در این مقاله با استفاده از شاخه علمی پردازش زبان-های طبیعی، یک الگوریتم سه مرحله ای به منظور بازشناسی متون فارسی بر مبنای بازشناسی جملات فارسی ارائه می شود. این روش شامل مراحل ترکیب زیرکلمات به ...

متن کامل

بازشناسی متون فارسی با استفاده از روشهای گرامری و معنایی

یکی از رایجترین اشکال انتقال اطلاعات، کاغذ می باشد. حجم زیادی از اطلاعات از طریق کاغذ منتقل می شوند. مستندات کاغذی از تنوع زیادی برخوردار هستند به عنوان مثال اطلاعات روی کاغذ می تواند شامل متون چاپی یا دست نویس، جداول، منحنی ها، تصاویر و ... باشد. ترکیب این اطلاعات بر روی اسناد کاغذی و همچنین استفاده از انواع مختلف قلم ها و ویژگی های خاص باعث دشواریهایی در بازیافت اطلاعات می گردد. علاوه بر این ...

15 صفحه اول

بازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف

این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در...

تشخیص دست‌نوشتۀ‌ برخط فارسی با استفاده از مدل زبانی و کاهش قوانین نگارش کاربر

The Joint-up, cursive form of Persian words and immense variety of its scripts, also different figures of Persian letters depending on their sitting positions in the words, have turned the Persian handwritings recognition to an intense challenge. The major obstacle of the most often recognition ways, is their inattention to sentence contexture which causes utilizing of a word with correct appea...

متن کامل

کشف و شناسایی بدافزارها با استفاده از ترکیب مدل n-gram و مدل مخفی مارکوف (hmm)

در یک تعریف کلی، می توان کلیه ی کدهای مخربی که بالقوه توانایی آسیب رساندن به سیستم های کامپیوتری یا شبکه ای از سیستم های کامپیوتری را دارند، بدافزار نامید. رشد کمی و کیفی بدافزارها در سال های اخیر به مدد افزایش کیفیت و کمیت کیت های تولید ویروس و ظهور تکنولوژی های نوین جهت تولید و گسترش ویروس های دگردیس و همچنین افزایش استفاده ی عمومی از ابزارهای اینترنتی و تحت وب، سرعت چشمگیری داشته است. در حال...

بازشناسی متون چاپی فارسی

برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 11  شماره 1

صفحات  107- 115

تاریخ انتشار 2014-09

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023