نام پژوهشگر: طاهره جان بزرگی
طاهره جان بزرگی سید ابوالفضل شاهزاده فاضلی
یکی از وظایف اصلی در پردازش زبان طبیعی(nlp) برچسب گذاری گرامری اجزای متن است. یک سیستم برچسب گذار، نقش گرامری واژه را در متن ورودی مشخص می سازد که در بسیاری از کاربردهای nlp مانند استخراج اطلاعات، ترجمه ماشین و تبدیل متن به صدا ضروریست. فرآیند برچسب گذاری با سه نوع الگوریتم قابل پیاده سازیست: الف) برچسب گذاری بر پایه قواعد دستوری، ب) برچسب گذاری آماری و ج) برچسب گذاری ترکیبی یا بر پایه قواعد تبدیل. سیستم های برچسب گذار اولیه سعی داشتند مجموعه ای از قوانین گرامری و دستوری را با متن ورودی منطبق کنند، به این صورت که اگر واژه های ورودی در داخل مجموعه ای از قواعد و قوانین جای می گرفتند و با آن سازگار می شدند، برنامه می توانست واژه را برچسب گذاری کند. این روش به اطلاعات زبان شناسی بسیاری نیاز دارد که بدست آوردن آن ها مستلزم فرآیند پرخطا و زمان بر است. سیستم های برچسب گذار امروزی تا حد زیادی از روش های آماری یادگیری ماشین استفاده می کنند که به اطلاعات زبان شناسی کمتری نیاز دارند و به بکارگیری آن ها نتایج بهتری حاصل می شود. یکی از مدل های مسلط امروزی در این زمینه مدل مخفی مارکف است. در مدل مخفی مارکف، هدف مشخص کردن اطلاعات پنهان از سیستم، از اطلاعاتی که برای سیستم شناخته شده است می باشد که به آن مشاهدات سیستم گویند. در یک سیستم برچسب گذار بر پایه مدل مخفی مارکف، مشاهدات، دنباله ای از واژه ها هستند و می خواهیم محتمل ترین دنباله برچسب ها را برای مشاهدات بدست آوریم. کاربردهای مدل مخفی مارکف برای دنباله های طولانی مشاهدات، منجر به ماتریس های تنک با درایه هایی از احتمالات بینهایت کوچک می شود که ممکن است به ناپایداری عددی بیانجامد. در این پایان نامه به دنبال ارائه الگوریتم هایی برای حل مسأله “داده تنک” و “ ناپایداری عددی” هستیم. پیاده-سازی عملی و پایدار عددی برای این مدل می تواند راهگشای ضمیمه گرهای موجود در جهت افزایش دقت و سرعت باشد.