نام پژوهشگر: محمود بیجن خان
شهریار عیسی پور محمدمهدی همایون پور
این تحقیق به شناسایی کسره اضافه در متون فارسی اختصاص دارد. روشهای مورد استفاده برای شناسایی کسره اضافه باید به گونه ای باشند که بتوانند بدون محدودیت در کلیه متون مورد استفاده قرار گیرند. همچنین در هنگام تشخیص دارای سرعت مناسبی نیز باشد. برای آموزش و تست روشهای ارایه شده در این تحقیق از پیکره زبان فارسی تهیه شده توسط پژوهشگاه هوشمند علایم استفاده گردیده استکه برای بخش تست آن از 1000 متن این پیکره هر کدام یک جمله استخراج گردید. تا تنوع موضوعی بیشتری را شامل شود. پس از تبیین اهمیت مسیله با ارایه چند جمله نمونه و توضیح حوضه اضافه به بررسی این حوزه از دید زبانشناسان پرداخته ایم. با استفاده از بررسی نتایج بدست آمده از مطالعات پیشین به این نتیجه رسیدیم که برای شناسایی کسره اضافه دو راه حل وجود دارد. راه اول روشی است مبتنی بر بدست آوردن نقش نحوی هر کلمه در جمله و بدست آوردن درخت تجزیه جمله. برای این کار می توان از روشهای گرامری موجود استفاده کرد. از طرف دیگر برای شناسایی کسره اضافه، باید روشی مورد استفاده قرار گیرد که دارای کمترین ابهام باشد. از طرف دیگر برای کاهش ابهام در روشهای بر پایه دانش، باید حجم زیادی از دانشهای مورد نیاز را با صرف هزینه و وقت بسیار ذخیره سازی کرده و مورد استفاده قرار دهیم. به همین دلیل به استفاده از گرامر مستقل از متن احتمالاتی برای بدست آوردن درخت تجزیه جمله پرداختیم که نتایج حاصل این روش در حدود 93% درصد بوده است. راه دیگر شناسایی کسره اضافه استفاده از روشهای یادگیری ماشین می باشد. در این روشها نیازی به ذخیره حجم فراوانی از دانشهای زبانی موجود نمی باشد. بنابر این دارای هزینه کمتری است. از طرف دیگر از آنجا که نیازی به بررسی حجم زیاد دانش نمی باشد، بنابر این سرعت تست بالاتری نیز نسبت به روشهای بر پایه دانش دارند. با بررسی انجام پذیرفته بر روی خصوصیات کسره در متون فارسی مشاهده گردید که اکثر کلمات دارای کسره شامل اسم می شود و همانگونه که می دانیم این گروه از کلمات دارای تنوع فراوانی می باشند. از طرف دیگر احتمال دارای کسره بودن در همه انواع کلمات کمتر از احتمال فاقد کسره بودن است. با توجه به این مسیله، بسیاری از روشهای یادگیری ماشین در شناسایی کسره دچار مشکل می شوند. مشکل ایجاد شده را بایاس می نامیم. به همین دلیل از دو روش ماکزیمم آنتروپی و حوزه تصادفی شرطی استفاده کرده ایم. در این دو روش بر خلاف سایر روشهای آماری به علت استفاده نکردن از احتمال کلاس مانند آنچه که در روشهای بر پایه قانون بیز مورد استفاده قرار می گیرد، مشکل بایاس ایجاد نمی گردد. دو روش نام برده شده تنها از احتمال شرطی برای ساخت مدل استفاده می کنند. کارایی بدست آمده با این روشها در بهترین حالت به 98% درصد رسیده است. در این تحقیق برای ارزیابی کارایی سیستمهای مختلف ارایه شده از معیارهای متفاوتی مانند ضریب کاپا و معیار recall، precision و f-value استفاده کرده ایم. در نهایت نیز بااستفاده از نتایج بدست آمده مشاهده گردید که برای شناسایی کسره اضافه استفاده از بافت متنی بهتر از استفاده از سایر ویژگیهای مورد استفاده می باشد.