بهبود شناسایی موجودیت‌های نامدار فارسی با استفاده از کسره اضافه

نویسندگان

عبدوس, محمد دانشگاه علم و صنعت ایران و آزمایشگاه پردازش و تحلیل متن شرکت آرمان رایان شریف

مینایی بیدگلی, بهروز دانشگاه علم و صنعت ایران

چکیده مقاله:

Named entity recognition is a process in which the people’s names, name of places (cities, countries, seas, etc.) and organizations (public and private companies, international institutions, etc.), date, currency and percentages in a text are identified. Named entity recognition plays an important role in many NLP tasks such as semantic role labeling, question answering, summarization, machine translation, semantic search, and relation extraction and quotation recognition systems. Named entity recognition in the Persian language is far more complex and more difficult than English. In English texts usually proper nouns begin with capital letters and this feature makes it easy to identify named entities, but this feature is absent in Persian language texts. To create a named entity recognition system, generally three methods are being used which include rule-based, machine-learning-based and hybrid methods. Each of these methods has its own advantages and disadvantages. Lack of named entity labeled data is the greatest challenge in Persian text. Because of this problem usually rule-based methods used to extract entities. In this paper firstly, the dictionary of organizations, places and people were extracted from Wikipedia. Wikipedia is one of the best sources for extracting entities in which more than 200000 Farsi-named entities are known to exist. The proposed algorithm classify each Wikipedia article title by using its categories. Each of Wikipedia titles has several categories that can be used to partially identify the named entity type. Then named entity recognition accuracy (precision) was increased using the rules. These rules can be divided into 3 categories that include morphological rules, adjacency and text patterns. The most important rules are adjacency rules. By using these rules the type of entity with the word nearby each entity (like Mr, Mrs , …) can be identified. To evaluate the system, 42000 tokens of BijanKhan corpus were manually annotated (labeled). Early F-measure was calculated 78.79 percent. In continue, named entity recognition accuracy (precision) improved using izāfe which is one of the important Persian language features and 81.94 percent for F-measure was achieved. The results showed that using izāfe in named entity recognition systems significantly increases their accuracy.

Download for Free

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

شناسایی کسره اضافه در متون فارسی برای استفاده در سیستم های تبدیل متن به گفتار

این تحقیق به شناسایی کسره اضافه در متون فارسی اختصاص دارد. روشهای مورد استفاده برای شناسایی کسره اضافه باید به گونه ای باشند که بتوانند بدون محدودیت در کلیه متون مورد استفاده قرار گیرند. همچنین در هنگام تشخیص دارای سرعت مناسبی نیز باشد. برای آموزش و تست روشهای ارایه شده در این تحقیق از پیکره زبان فارسی تهیه شده توسط پژوهشگاه هوشمند علایم استفاده گردیده استکه برای بخش تست آن از 1000 متن این پیکر...

15 صفحه اول

بررسی پیکره ای راهبردهای ترجمه کسره اضافه فارسی به انگلیسی

چکیده ندارد.

15 صفحه اول

سیستم شناسایی موجودیت های نامدار در متون فارسی

شناسایی موجودیت های نامدار در پردازش زبان طبیعی به عملیاتی گفته می شود که طی آن کلی? اسامی خاص موجود در متن و متعلّق به مقوله های معنایی مختلف، شناسایی و استخراج می گردند. در واقع، شناسایی موجودیت های نامدار عملی است که در جهت ساختار بخشیدن به متن صورت می گیرد. شناسایی موجودیت های نامدار، بطور کلی با یکی از روش های مبتنی بر قانون و یا مبتنی بر روش یادگیری ماشینی و یا بصورت ترکیبی از این دو روش ...

سامانۀ رفع ابهام معنایی از حروف اضافه در زبان فارسی با استفاده از قالب‌های معنایی

رفع ابهام معنایی از کلمات در بافت یکی از مهم‌ترین چالش‌ها در حوزۀ پردازش زبان طبیعی و زبان‌شناسی رایانشی است. در این میان حروف اضافه، به‌خصوص در زبان فارسی، در پژوهش‌های مربوط به رفع ابهام معنایی همواره نادیده انگاشته شده‌اند. ازاین‌رو، پژوهش حاضر قصد دارد با ارائۀ الگوریتمی جدید مبتنی بر قالب‌های معنایی، سامانه‌ای قاعده‌مند جهت رفع ابهام معنایی از حروف اضافه «از»، «در»، «با» و «تا» در زبان فار...

متن کامل

بهبود کارایی پروتکلSIP در شرایط اضافه بار با استفاده از قابلیت مبتنی بر پنجره

The extent and diversity of systems provided by IP networks have made various technologies to approach integrating various types of access networks and converting to next generation network. The Session Initiation Protocol (SIP) with respect to facilities such as being in text form, end-to-end connection, independence from the type of transmitted data, and supporting various forms of transmissi...

متن کامل

سنتز جملات فارسی با استفاده از قواعد گویشی و کسره بین کلمات

با پیشرفت چشمگیر علوم رایانه در چند دهه ی اخیر و پررنگ تر شدن نقش آن در زندگی بشر، علوم مختلفی در کنار آن بوجود آمده و رشد کرده اند. یکی از این علوم هوش مصنوعی است و خود نیز به شاخه های متعددی تقسیم می شود که یکی از آن ها پردازش زبان طبیعی است. از شاخه های پردازش زبان طبیعی می توان به تبدیل متن به گفتار اشاره کرد که بیش از پنج دهه بر روی این موضوع کار شده است. در تبدیل متن به گفتار، هدف این است...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

عنوان ژورنال

پردازش علائم و داده ها

دوره 14 شماره 4

صفحات 43- 54

تاریخ انتشار 2018-03

دنبال کردن

لغو دنبال کردن

{@ msg @}

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

کلمات کلیدی

کلمات کلیدی برای این مقاله ارائه نشده است

میزبانی شده توسط پلتفرم ابری doprax.com