سیستم شناسایی و طبقه بندی اسامی در متون فارسی

Authors

Abstract:

Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in different languages, but lack of a system with admissible performance in Farsi texts is quietly sensible. In this paper, the Corpus of Research Center of Intelligent Signal Processing has been used to create a Farsi NER. In our proposed NER system, there exist three stages: preprocessing, feature extraction and classification. To prepare a data set in the preprocessing stage, by using the part of speech (POS) feature, names are extracted from text and then infinitives, time related names, counting names, and numbers are removed from data. This gives a more balanced data set for learning and classification. In the feature extraction stage, N-gram is computed as feature, and four classifiers (linear, KNN, Bayesian, Neural Network) is learned in the classification stage. Because of lack of variety in the time related names and a few number of mixture of time related names with names in the other categories, an auxiliary list is used to identifying them. The results of research show, neural network have better performance (99%) in distinct between the names of places and people. In general, KNN and linear classifiers obtain 91% success based on F-measure scale in classifying the names of places and people and general names. In classifying the time related names, using an auxiliary list, based on an F-measure scale, a 96% success was obtained.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

سیستم شناسایی و طبقه‌بندی موجودیت‌های اسمی در متون زبان فارسی بر پایه شبکه عصبی

Named Entity Recognition (NER) is a fundamental task in natural language processing and also known as a subset of information extraction. We seek to locate and classify named entities in text into predefined categories such as the names of persons, organizations, locations, expressions of times, etc. Named Entity Recognition for English texts has been researched widely for the past years, howev...

full text

طبقه بندی الگوهای پویای رفتاری سیستم ها

امروزه استفاده از اصطلاحاتی همچون "سیستم"، "سیستم های پیچیده"، "سیستم های پیچیده انطبا ق پذیر" و واژه هایی از این دست نسبت بهگذشته بسیار افزایش یافته است که این امر نشان از اهمیت مفهوم سیستم دارد. لذا شناخت انواع سیستم ها و الگوهای رفتاری آنها به منظورتجزیه وتحلیل صحیح آنها از اهمیت ویژه ای برخوردار می باشد. در این مقاله سعی می شود که انواع الگوی پویای رفتاری سیستم ها که از آن...

full text

کاربرد سیستمهای طبقه بندی در سیستم اطلاعات پرستاری: مطالعه مروری

مقدمه: از الزامات سیستم اطلاعات پرستاری سیستمهای طبقه بندی پرستاری هستند که عمدتاً فعالیت ‌ های پرستاری را در سه حیطه تشخیص، اقدام و پیامد آنها دسته‌ بندی میکنند. اما تبیین نحوه استفاده از این طبقه بندی ها در سیستمهای اطلاعاتی پرستاری مهم است. هدف: در مطالعه حاضر، کاربرد سیستم‌ های طبقه ‌ بندی در سیستم‌ های اطلاعاتی پرستاری مورد بررسی قرار گرفته است. مواد و روش ها: در یک مطالعه مروری، بر اساس کل...

full text

ارئه روشی نوین جهت طبقه بندی متون فارسی

متن کاوی به دلیل حجم وسیعی از اطلاعات که به صورت متنی ذخیره شده، پتانسیل کاربردی بسیار بالایی دارد. یکی از مهمترین کاربردهای متن کاوی طبقه بندی متون به لحاظ موضوعی میباشد. در این مقاله سعی بر آن داشته ایم تا با توجه به روشهای مختلف طبقه بندی متون فارسی، روشی نوین در جهت افزایش دقت و کارآیی طبقه بندی متون ارائه دهیم. برای طبقه بندی متون یک روال پنج مرحله ای را در نظر گرفته ایم.مرحله جداسازی کلما...

الف تسمیه؛ سیری در کاربرد «الف» پسوند اسامی خاص و القاب در متون منظوم و منثور فارسی

نقش پساوندها در زبان فارسی به سبب ویژگیِ ترکیبی‌ این زبان، نقشی برجسته و معنی‌زاست. برخی از این پساوندها، که در مقاطعی از زمان بنا به ضرورت ها و طبق قواعد خاصی ساخته شده، به مرور از کار‌آیی می‌افتند و فراموش می‌شوند و یا به‌طور محدود مورد استفاده قرار می‌گیرند. در این مقاله سعی شده است تا پیرامون یکی از معانی پسوند «الف» در الصاق به اسم خاص و نحوه و دورۀ کاربرد آن بر اساس شماری از متون ادبی و ت...

full text

طبقه بندی و بررسی نثر متون عرفانی و فلسفی عصر قاجار

یکی از موضوعاتی که در عصر قاجار در حوزة فرهنگ ایرانی امتداد پیدا کرده، موضوعات فلسفی و عرفانی بود. در عصر قاجار با توجّه به استقرار بیشتر عالمان در تهران، حلقه‌ای در عرصة اندیشه‌های فلسفی و عرفانی پدید آمد که آن را «مکتب تهران» نامیده‌اند؛ سرآمدان این مکتب فکری، آثار مختلفی را در موضوعات فلسفی و عرفانی پدید آورده‌اند که بیشتر آن‌ها به زبان فارسی است و با این کار نشان دادند که زبان فارسی همچنان ت...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 7  issue 1

pages  77- 88

publication date 2010-09

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

No Keywords

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023