نام پژوهشگر: محمد ابرونتن

هم ترازی جملات دادگان فارسی-عربی با روش مبتنی بر واژه نامه دوزبانه
پایان نامه دانشگاه تربیت معلم - تهران - دانشکده مهندسی برق و کامپیوتر 1392
  محمد ابرونتن   رویا امجدی فرد

امروزه با گسترش یافتن وسایل ارتباط جمعی به ویژه اینترنت، نیاز و علاقه به ترجمه خودکار، افزایش یافته است. روش ها و سیستم های مختلفی برای ترجمه ماشینی به وجود آمده است که در سال های اخیر، روش ترجمه ماشینی آماری مطرح ترین آن ها می باشد. پیکره های چندزبانه، یکی از اساسی ترین منابع شاخه های مختلفی از پردازش زبان طبیعی مانند بازیابی اطلاعات چندزبانه و ترجمه ماشینی آماری می باشد. پیکره های چندزبانه انواع مختلفی دارند که پیکره موازی مطلوب ترین آن ها برای ترجمه ماشینی، می باشد. پیکره موازی موردنیاز سیستم ترجمه ماشینی آماری بایستی در سطح جمله تراز شده باشد. روش های مختلفی برای هم ترازی جملات وجود دارد که می توان به روش های مبتنی بر طول، مبتنی بر واژه نامه، ترکیبی و ... اشاره کرد. در این تحقیق، روشی مبتنی بر واژه نامه، برای هم ترازی پیکره های فارسی-عربی که دارای حالات هم ترازی چند به یک و چند به چند زیادی می باشد ارائه شده است. واژه نامه دوزبانه حجیمی با استفاده از پیکره های موازی موجود، تولید شده و با استفاده از ریشه یاب فارسی و عربی این واژه نامه غنی و کامل تر می گردد. در این روش، پس از به دست آوردن ماتریس شباهت جملات، برای یافتن جملات مشابه هر جمله، از گراف دوقسمتی استفاده می شود. این رهیافت علاوه بر حالت های ساده 1-1 و 1-0 موارد پیچیده تر را نیز (حالت های چند به یک و چند به چند) تشخیص داده و ترازبندی می کند.