شناسایی کسره اضافه در متون فارسی برای استفاده در سیستم های تبدیل متن به گفتار

پایان نامه
چکیده

این تحقیق به شناسایی کسره اضافه در متون فارسی اختصاص دارد. روشهای مورد استفاده برای شناسایی کسره اضافه باید به گونه ای باشند که بتوانند بدون محدودیت در کلیه متون مورد استفاده قرار گیرند. همچنین در هنگام تشخیص دارای سرعت مناسبی نیز باشد. برای آموزش و تست روشهای ارایه شده در این تحقیق از پیکره زبان فارسی تهیه شده توسط پژوهشگاه هوشمند علایم استفاده گردیده استکه برای بخش تست آن از 1000 متن این پیکره هر کدام یک جمله استخراج گردید. تا تنوع موضوعی بیشتری را شامل شود. پس از تبیین اهمیت مسیله با ارایه چند جمله نمونه و توضیح حوضه اضافه به بررسی این حوزه از دید زبانشناسان پرداخته ایم. با استفاده از بررسی نتایج بدست آمده از مطالعات پیشین به این نتیجه رسیدیم که برای شناسایی کسره اضافه دو راه حل وجود دارد. راه اول روشی است مبتنی بر بدست آوردن نقش نحوی هر کلمه در جمله و بدست آوردن درخت تجزیه جمله. برای این کار می توان از روشهای گرامری موجود استفاده کرد. از طرف دیگر برای شناسایی کسره اضافه، باید روشی مورد استفاده قرار گیرد که دارای کمترین ابهام باشد. از طرف دیگر برای کاهش ابهام در روشهای بر پایه دانش، باید حجم زیادی از دانشهای مورد نیاز را با صرف هزینه و وقت بسیار ذخیره سازی کرده و مورد استفاده قرار دهیم. به همین دلیل به استفاده از گرامر مستقل از متن احتمالاتی برای بدست آوردن درخت تجزیه جمله پرداختیم که نتایج حاصل این روش در حدود 93% درصد بوده است. راه دیگر شناسایی کسره اضافه استفاده از روشهای یادگیری ماشین می باشد. در این روشها نیازی به ذخیره حجم فراوانی از دانشهای زبانی موجود نمی باشد. بنابر این دارای هزینه کمتری است. از طرف دیگر از آنجا که نیازی به بررسی حجم زیاد دانش نمی باشد، بنابر این سرعت تست بالاتری نیز نسبت به روشهای بر پایه دانش دارند. با بررسی انجام پذیرفته بر روی خصوصیات کسره در متون فارسی مشاهده گردید که اکثر کلمات دارای کسره شامل اسم می شود و همانگونه که می دانیم این گروه از کلمات دارای تنوع فراوانی می باشند. از طرف دیگر احتمال دارای کسره بودن در همه انواع کلمات کمتر از احتمال فاقد کسره بودن است. با توجه به این مسیله، بسیاری از روشهای یادگیری ماشین در شناسایی کسره دچار مشکل می شوند. مشکل ایجاد شده را بایاس می نامیم. به همین دلیل از دو روش ماکزیمم آنتروپی و حوزه تصادفی شرطی استفاده کرده ایم. در این دو روش بر خلاف سایر روشهای آماری به علت استفاده نکردن از احتمال کلاس مانند آنچه که در روشهای بر پایه قانون بیز مورد استفاده قرار می گیرد، مشکل بایاس ایجاد نمی گردد. دو روش نام برده شده تنها از احتمال شرطی برای ساخت مدل استفاده می کنند. کارایی بدست آمده با این روشها در بهترین حالت به 98% درصد رسیده است. در این تحقیق برای ارزیابی کارایی سیستمهای مختلف ارایه شده از معیارهای متفاوتی مانند ضریب کاپا و معیار recall، precision و f-value استفاده کرده ایم. در نهایت نیز بااستفاده از نتایج بدست آمده مشاهده گردید که برای شناسایی کسره اضافه استفاده از بافت متنی بهتر از استفاده از سایر ویژگیهای مورد استفاده می باشد.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

بهبود شناسایی موجودیت‌های نامدار فارسی با استفاده از کسره اضافه

Named entity recognition is a process in which the people’s names, name of places (cities, countries, seas, etc.) and organizations (public and private companies, international institutions, etc.), date, currency and percentages in a text are identified. Named entity recognition plays an important role in many NLP tasks such as semantic role labeling, question answering, summarization, machine ...

متن کامل

مراحل و نحوه ی تهیه ی دادگان های صوتی هجایی و دایفونی برای سامانه ی تبدیل متن به گفتار فارسی

Abstract Speech databases are part of the concatenative text to speech synthesis systems. Phonetic quality of the databases plays a significant role in the naturalness of the synthesized speech. This paper introduces two syllable and diphone speech databases for Persian and investigates the way of their development and their specifications and their advantages to each other. ...

متن کامل

سیستم شناسایی و طبقه بندی اسامی در متون فارسی

Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in ...

متن کامل

به کارگیری سامانه تبدیل گفتار به متن در حوزه مراقبت سلامت: مزایا، محدودیت‌ها، راهکارها

 Background and Aim: The applicability of any technology to enter a certain field is determined by defining the advantages and disadvantages of the system in that field. The aim of this study is to show the advantages and limitations of using speech recognition systems in health care and providing practical solutions to improve the acceptability of the system in that field. Materials and M...

متن کامل

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023