پیکره اعلام: یک پیکره استاندارد واحدهای اسمی برای زبان فارسی
نویسندگان
چکیده مقاله:
Named entity recognition (NER) is a natural language processing (NLP) problem that is mainly used for text summarization, data mining, data retrieval, question and answering, machine translation, and document classification systems. A NER system is tasked with determining the border of each named entity, recognizing its type and classifying it into predefined categories. The categories of named entities include the names of persons, organizations, locations (e.g. city and country), expressions of times, quantities, monetary expressions, and percentages. In general, corpus-based NER approaches have been proved to be well suited for NER problem. Using a NER corpus, recognition of named entities can be done through ruled-based or machine-learning methods. Corpus-based NER systems need standard and appropriate annotated corpora. However, such corpora mainly exist in languages such as English, and are rarely found in Persian/Farsi or limited in volume. So, this paper is dedicated to describe the producing procedure of a standard named entity (NE) corpus - A’laam corpus - for Persian language. A’laam corpus contains about 250,000 tokens tagged with 13 NE tags. This corpus has been developed in the Research Center for Development of Advanced Technologies (RCDAT). Tokens of A’laam corpus are a part of Farsi Text Corpus. The Farsi Text Corpus is a standard Farsi corpus. This corpus, containing more than 100 million Farsi words, has been developed by the Research Center of Intelligent Signal Processing (changed to the Research Center for Development of Advanced Technologies in 2013). The words of this corpus, selected from diverse written and spoken sources, was tokenized and corrected manually. In addition, a part of the Farsi Text Corpus with 8 million words has part-of-speech (POS) tags at word level. Totally, about 8,400 sentences of the Farsi Text Corpus have been randomly selected to obtain about 250,000 tokens of A’laam Corpus. This corpus included words, POS tags, and named entity tags. To evaluate A’laam corpus, a Persian NER system was trained based on this corpus. This corpus was so divided into the train and test sections. The train section accounted for 90% of the corpus and the remaining 10% belonged to the test section. Using Conditional Random Fields (CRF) method, the Persian NER system resulted in a 92.94% Precision and 78.48% Recall.
منابع مشابه
دوگان سازی کامل در زبان فارسی: بررسی پیکره بنیاد
فرایند تکرار یکی از فرایند های صرفی زایا ست که درباره ی آن در زبانهای مختلف و در چهار چوب نظریات مختلف زبانشناختی (دستور زایشی ، نظریه بهینگی و برنامه کمینگی ) مطالعات جامعی صورت گرفته است.اکنون با رشد زبانشناسی پیکره ای و مطالعات پیکره بنیاد می توان پژوهش های صرفی از این دست را دقیق تر به سامان رساند. تکرار در دونوع کامل و ناقص از سوی زبانشناسان (شقاقی 1389، هسپلمت 2002 و بائر 2003) بررسی شده ...
متن کاملکاربرد پیکره های متنی در آموزش زبان آلمانی
در یادگیری زبان بیگانه، زبانآموز همواره با چالشهای مختلفی دست و پنجه نرم میکند و بندرت قادر است بدون یاریگرفتن از افراد صاحبنظر پیشرفت قابلتوجهی در مهارتهای زبانی کسب کند. مقاله پیشرو با درنظرگرفتن همین محدودیت، به معرفی پیکرههایزبانی و چگونگی استفاده از آنها در امر آموزش زبان میپردازد. پیکرهمتنی امروزه به مجموعهای از متون گفتاری و نوشتاری دیجیتالیشده گفته میشود که از نمونههای ...
متن کاملترکیب فعلی: فرایندی صرفی یا نحوی؟ یک بررسی پیکره بنیاد
مقاله حاضر با مطالعه ترکیب فعلی زبان فارسی تلاش دارد تا فرایند دخیل در ساخت این مقوله زایا را روشن سازد. ترکیب فعلی از انضمام سازههای موضوع، افزوده، صفت و یا گروه نحوی با ستاک فعل تشکیل میشود و هسته نحوی این ساخت برگرفته از فعل است. مقایسه پیکره ترکیب فعلی (8481) با دادههای ترکیب غیرفعلی رساله خباز (1385) که بالغ بر 3974 مورد است و هر دو از فرهنگ بزرگ سخن انوری (1386) استخراج شدهاند نشان...
متن کاملطراحی و ایجاد پیکره ی تولیدی زبان آموز فارسی
با استفاده از نتایج حاصل از بررسی های صورت گرفته بر روی پیکره ی تولیدی زبان آموز می توان به تهیه ی برنامه ی درسی و تدوین محتوای آموزشی مناسب و هدفمند اقدام نمود. به همین منظور در این پژوهش تلاش شد، ضمن بررسی پیشینه و اهمیت به کار گیری پیکره های تولیدی زبان آموز در امر آموزش، نخستین پیکره ی تولیدی زبان آموز فارسی طراحی و ایجاد شود.
نقد کتاب کاربرد پیکره در تحلیل گفتمان
چکیده کاربرد پیکره در تحلیل گفتمان نوشتۀ پاول بیکر (2006) توسط انتشارات کانتینیوم (لندن و نیویورک) در 207 صفحه منتشر شده است. کتاب بر دو موضوع اصلی و ایجاد ارتباط بین آنها متمرکز است: تحلیل گفتمان و زبانشناسی پیکرهای. تحلیل گفتمان که ماهیتی میانرشتهای دارد، در سالهای اخیر مورد توجه بسیاری از زبانشناسان بهویژه پژوهشگران علاقهمند به مباحث جامعهشناسی زبان بوده است. پیکره زبانی مجموعهای...
متن کاملاستعاره های مفهومی در زبان فارسی؛ تحلیلی شناختی و پیکره مدار
پژوهش حاضر به بررسی استعاره های مفهومی در پیکره ای نمونه از زبان فارسی می پردازد. در این پژوهش تلاش شده است تا با بهره گیری از پایگاه داده های زبان فارسی، پیکره ای از متون نوشتاری زبان فارسی معاصر که شباهت بیشتری به زبان روزمره سخنوران دارد، نمونه گیری و استعاره های مفهومی نهفته در آن استخراج گردد. سپس این استعاره ها براساس طبقه بندی لیکاف و جانسون johnson, 1980) & (lakoff ، در قالب استعاره های...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 14 شماره 3
صفحات 127- 142
تاریخ انتشار 2017-12
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
کلمات کلیدی برای این مقاله ارائه نشده است
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023