سعید راحتی قوچانی

نام پژوهشگر: سعید راحتی قوچانی

تشخیص مرزهای تکواژی در زبان فارسی بر اساس اطلاعات واجی (با هدف کاربرد در برنامه‏های رایانه‏ای پردازش زبان)

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده ادبیات و علوم انسانی دکتر علی شریعتی 1390
مریم شمایلی اعظم استاجی

این پایان نامه با عنوان «تشخیص مرزهای تکواژی در زبان فارسی بر اساس اطلاعات واجی (با هدف کاربرد در برنامه ‏های رایانه ‏ای پردازش زبان)» به بررسی روش تجزیه ساختواژی پیشنهادی هریس (1995) و میزان کارآمدی این روش بر روی زبان فارسی می‏پردازد. هدف از انجام این تحقیق این است که با آزمودن مدل تجزیه ساختواژی هریس بر روی داده ‏های نوشتاری زبان فارسی، امکان استفاده از آن را در برنامه ‏های پردازش زبان فارسی برای تجزیه تکواژی مشخص کند. برای آزمودن روش هریس از پنجاه جمله فارسی استخراج شده از پایگاه داده ‏های زبان فارسی برای جامعه نمونه استفاده کردیم. به دلیل عدم وجود پیکره زبان فارسی مناسب برای آزمودن فرضیه این پژوهش از سه گویشور زبان فارسی برای جمع ‏‏آوری سایر داده ‏ها کمک گرفتیم. سپس داده ‏های جمع ‏آوری شده را به صورت دستی، واج ‏نویسی کردیم و به شمارش تعداد متغیر همنشینی واج ‏ها پس از هر واج پاره ‏گفتارها پرداختیم. تقطیع پاره ‏گفتارها در نقاط اوج تعداد متغیر همنشینی، تکواژهای به دست آمده از این روش تقطیع را مشخص نمود. نتایج این آزمون بر روی جامعه نمونه نشان می‏دهد که تقطیع ساختواژی با دقت 97% و بازیابی 75% صورت گرفته است. میزان دقت 0/97 این روش برای تعیین مرزهای تکواژی، نتیجه بسیار خوبی است. نکته مهم این است که این نتایج از پردازش یک پیکره برچسب ‏گذاری نشده، به دست آمده است. با اینکه در آزمودن روش هریس تکواژهای فارسی با دقت خوبی به دست می‏آیند به نظر می‏رسد این روش نمی ‏تواند به عنوان مدل رایانه ‏ای برای پردازش ساختواژی متون فارسی به کار گرفته شود و نتایج قابل قبولی را برای کاربرد در موتورهای جستجو، ماشین ‏های ترجمه و یا دیگر برنامه ‏های پردازش زبانی ارائه دهد. با این وجود از آن‏جا که در برنامه ‏های تبدیل گفتار به متن، آواها به صورت خام به دست می ‏آیند، به نظر می‏رسد این مدل بتواند متون آوانویسی شده فارسی را با دقت خوبی به تکواژها تجزیه کند و ازاین ‏رو در برنامه ‏های پردازش گفتار به کار رود.

۱۵ صفحه ی اول