نام پژوهشگر: محمدحسن دیانتی

شناسایی ارتباط ساختاری و مفهومی کلمات و استفاده از آن در ترجمه ماشینی
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر 1391
  محمدحسن دیانتی   محمدهادی صدرالدینی

یکی از مسائل مهم در زمینه ترجمه ماشینی و همچنین بازیابی اطلاعات ریشه یابی کلمات می باشد. سه روش عمده جهت ریشه یابی کلمات به ترتیب روش ساختاری، روش جدول مراجعه و روش آماری می باشد. روش ساختاری، وابسته به ساختار ریخت شناسی زبان است. در این روش جهت بدست آوردن ریشه ی کلمه، عملیات حذف پیشوند و پسوند کلمه بر اساس قوانین تعیین شده ای صورت می گیرد. در روش جدول مراجعه هر کلمه و ریشه ی آن در یک ساختار ذخیره می شوند؛ در نتیجه برای هر کلمه ذخیره شده به کمک این ساختار می توان ریشه آن را پیدا کرد. در روش آماری برای بدست آوردن قوانین مربوط به ساخته شدن کلمات از یک پیکره متنی استفاده می شود. با توجه به سه روش اصلی مطرح شده الگوریتم های زیادی جهت ریشه یابی کلمات برای زبان های مختلف ارائه شده است که اکثر آن ها وابسته به زبان هستند و بر اساس ساختار یک زبان خاص مطرح شده اند و متأسفانه قابلیت اجرا بر روی زبان های دیگر را ندارند. در این تحقیق با توجه به اهمیت این موضوع سعی بر آن شده است که روشی جدید برای بدست آوردن ریشه کلمات ارائه شود که به سادگی قابل اجرا بر روی زبان های مختلف باشد. در این روش عملیات ریشه یابی به کمک یک لغتنامه دو زبانه انجام می گیرد. در ابتدا کلمات بر اساس شباهت ساختاری خوشه بندی شده و سپس عملیات خوشه بندی کلمات بر اساس شباهت معنایی آن ها صورت می گیرد و در نهایت به کمک این خوشه بندی های انجام شده ریشه یابی کلمات انجام می شود. جهت استفاده از این روش بر روی زبان های مختلف کافی است از لغتنامه مربوط به آن زبان استفاده شود. در نهایت، جهت ارزیابی عملکرد ریشه یاب ارائه شده، عملیات ریشه یابی کلمات بر روی دو زبان فارسی و انگلیسی انجام شده است که نتایج حاصل نشان دهنده کارایی مناسب این روش جهت ریشه یابی کلمات می باشد.