نام پژوهشگر: فرهنگ فیروزی
فرهنگ فیروزی محمدرضا فیضی درخشی
در پردازش زبان طبیعی سعی بر این است که کامپیوتر توانایی استخراج معنی از منابع زبان طبیعی را داشته باشد. به دلیل پیچیدگی پردازش زبان طبیعی و برای سادگی برخورد با چالش های پیش روی آن از ابزارهای مختلف و تخصصی برای مواجهه با هر یک از مشکلات استفاده شود. برچسب گذار نحوی اجزای کلام یکی از ابزارهایی است که می تواند به فرایند پردازش زبان طبیعی کمک کند. وظیفه برچسب گذار مشخص کردن نقش دستوری کلمات در جملاتی است که به عنوان ورودی به کامپیوتر داده می شود. این ابزار پایه ای می تواند در مترجم های ماشینی، غلط یاب ها، خلاصه سازهای متون و سایر موارد استفاده شود. در این پایان نامه ابتدا به معرفی روش های تعیین نقش دستوری برای زبان فارسی می پردازیم. برچسب گذاری به صورت عمده به دو گونه مبتنی بر قانون و آماری تقسیم می شود. در این پایان نامه به بررسی روش های تعیین نقش دستوری در زبان فارسی می پردازیم. با توجه به مشکلات برچسب گذاری مبتنی بر قانون عمده پیاده سازی های انجام شده در زبان فارسی، با استفاده از روش های آماری بوده اند. روش های آماری مدل مارکوف، مبتنی بر حافظه و تخمین احتمال بیشینه پرکاربردترین روش های آماری برای زبان فارسی هستند که سعی شده با انعکاس نتایج، مقایسه ای را بین آن ها انجام دهیم. در پایان نتایج بررسی ها نشان می دهد الگوریتم مدل مارکوف بیشترین اقبال را چه ازنظر تعداد استفاده چه ازنظر درصد موفقیت برای زبان فارسی دارا است. نکته قابل توجه در کارهای پیشین تمرکز بیشتر آن ها بر روی تعیین نقش دستوری کلمات ناشناخته است. برای این کار روش¬های پیش¬پردازش متن، تحلیل¬گر ساخت¬واژی و حدس برچسب کلمات ناشناخته مورد استفاده قرار گرفته بود. دراین بین کمتر اثری را می توان یافت که ضمن ارائه الگوریتمی جدید به موفقیت قابل توجه دست پیداکرده باشد. ما برای ارائه الگوریتم جدید، مدل مخفی مارکوف را با توجه به بررسی کارهای گذشته به عنوان مبنای کار خود قراردادیم. سپس با ارائه روش های مختلف تلاش کردیم درنتیجه به دست آمده توسط این روش بهبود حاصل کنیم. یکی از رو¬ش¬ها بررسی انتقال های پرتکرار و انتقال ها با درصد خطای بالا برای وضع قوانین بهبود دهنده برای آن¬ها است. تغییر نسبت وزنی فاکتورهای اصلی مدل مارکوف به دنبال یافتن نسبت بهینه بین این فاکتورها روش دیگر مورد استفاده بود، که نشان داد نسبت یک¬به¬یک بهترین انتخاب است. بررسی تأثیر نقش کلمات بعدی به جای کلمات قبلی، بر روی تعیین نقش دستوری کلمات انجام گرفت، چرا که تأثیر برچسب¬های قبل و بعد بر روی تعیین نقش دستوری کلمات برای هر زبان قابل توجه است. نتیجه به دست آمده 96.89 درصد است. برچسب¬گذاری دو مرحله¬ای با استفاده از دسته¬بندی اولیه برچسب¬ها روشی است که می¬تواند کیفیت نتیجه را بهبود دهد هرچند نتیجه کمی آن از 95.91 درصد فراتر نرفت؛ اما نقطه قوت این پایان نامه اضافه کردن فاکتورهایی مانند p(t_(i-1) |t_i ) به مدل مارکوف و پیدا کردن نسبت بهینه بین آن ها با استفاده از روش های جستجوی مختلف ازجمله الگوریتم ژنتیک است. این روش توانست با موفقیت 97.06 درصدی نتیجه¬ای بهتر از روش¬های موجود ارائه دهد.