نام پژوهشگر: سعید راحتی قوچانی
مریم شمایلی اعظم استاجی
این پایان نامه با عنوان «تشخیص مرزهای تکواژی در زبان فارسی بر اساس اطلاعات واجی (با هدف کاربرد در برنامه های رایانه ای پردازش زبان)» به بررسی روش تجزیه ساختواژی پیشنهادی هریس (1995) و میزان کارآمدی این روش بر روی زبان فارسی میپردازد. هدف از انجام این تحقیق این است که با آزمودن مدل تجزیه ساختواژی هریس بر روی داده های نوشتاری زبان فارسی، امکان استفاده از آن را در برنامه های پردازش زبان فارسی برای تجزیه تکواژی مشخص کند. برای آزمودن روش هریس از پنجاه جمله فارسی استخراج شده از پایگاه داده های زبان فارسی برای جامعه نمونه استفاده کردیم. به دلیل عدم وجود پیکره زبان فارسی مناسب برای آزمودن فرضیه این پژوهش از سه گویشور زبان فارسی برای جمع آوری سایر داده ها کمک گرفتیم. سپس داده های جمع آوری شده را به صورت دستی، واج نویسی کردیم و به شمارش تعداد متغیر همنشینی واج ها پس از هر واج پاره گفتارها پرداختیم. تقطیع پاره گفتارها در نقاط اوج تعداد متغیر همنشینی، تکواژهای به دست آمده از این روش تقطیع را مشخص نمود. نتایج این آزمون بر روی جامعه نمونه نشان میدهد که تقطیع ساختواژی با دقت 97% و بازیابی 75% صورت گرفته است. میزان دقت 0/97 این روش برای تعیین مرزهای تکواژی، نتیجه بسیار خوبی است. نکته مهم این است که این نتایج از پردازش یک پیکره برچسب گذاری نشده، به دست آمده است. با اینکه در آزمودن روش هریس تکواژهای فارسی با دقت خوبی به دست میآیند به نظر میرسد این روش نمی تواند به عنوان مدل رایانه ای برای پردازش ساختواژی متون فارسی به کار گرفته شود و نتایج قابل قبولی را برای کاربرد در موتورهای جستجو، ماشین های ترجمه و یا دیگر برنامه های پردازش زبانی ارائه دهد. با این وجود از آنجا که در برنامه های تبدیل گفتار به متن، آواها به صورت خام به دست می آیند، به نظر میرسد این مدل بتواند متون آوانویسی شده فارسی را با دقت خوبی به تکواژها تجزیه کند و ازاین رو در برنامه های پردازش گفتار به کار رود.