نام پژوهشگر: سیده رویا محمدی

ساخت پیکره تطبیقی فارسی-انگلیسی و استخراج جملات موازی از آن
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه الزهراء - دانشکده فنی 1391
  سیده رویا محمدی   نوشین ریاحی

کیفیت بسیاری از کاربردهای پردازش زبان های طبیعی مانند سیستم های ترجمه ی ماشینی به پیکره های موازی که برای آموزش آنها استفاده می شود، بسیار وابسته است. بنابراین یکی از نیازهایی که در این حوزه وجود دارد، تهیه ی پیکره های موازی با حجم داده ای بالا و محتوای متنوع می باشد. مشکلی که در استفاده از پیکره های موازی وجود دارد، حجم اندک اطلاعات موازی موجود بر روی منابع اطلاعاتی است. در سال های اخیر، تلاش های زیادی برای استخراج داده ی موازی از منابع غیرموازی یا پیکره های تطبیقی انجام شده است. مزیت این پیکره ها نسبت به پیکره های موازی، حجم بالای اطلاعاتی آنها می باشد. از طرفی، این داده ها را می توان به راحتی از طرق مختلف مانند صفحات وب بدست آورد. مثلاً یکی از منابع موجود برای استخراج پیکره های تطبیقی استفاده از شبکه های خبری می باشد. با وجود کاربردهای پیکره-های تطبیقی، کار زیادی در این زمینه در زبان فارسی انجام نشده است. در این پژوهش، نخست به ساخت پیکره ی تطبیقی بزرگ فارسی- انگلیسی می پردازیم. برای ایجاد این پیکره از اسناد خبری روزنامه های همشهری و بی بی سی استفاده کرده ایم و از اسناد بدست آمده، معیارهایی نظیر تعداد کلمات کلیدی مشترک، اسامی خاص یکسان، عناوین مشابه و فاصله ی تاریخ انتشار دو خبر را استخراج نمودیم. سپس معیارهای بدست آمده از مرحله ی قبل را براساس میزان اهمیتشان در ترازبندی متون، با وزن های مختلف با یکدیگر ترکیب کردیم. با توجه به نتایج بدست آمده، مشاهده می-شود که این پیکره از نظر کیفی و کمی از تنها پیکره ی تطبیقی تولید شده در زبان فارسی بهتر می باشد. در گام بعد، به استخراج جملات موازی از پیکره ی تطبیقی ساخته شده پرداختیم. بدین منظور، پس از استخراج متن های منطبق با یکدیگر، مجموعه ای از جملات را ایجاد کرده و با استفاده از معیارهای طول و تعداد هم پوشانی کلمات، جملاتی را که احتمال موازی بودنشان بسیار کم بود، تصفیه کردیم. پس از تصفیه، به استخراج ویژگی های لغوی، طولی و هم پوشانی لغات از جملات منتخب پرداختیم و در نهایت با استفاده از جملات آموزشی پیکره ی موازی موجود و ویژگی های استخراج شده، با به کارگیری یک طبقه-بند، جملات منتخب را در دو دسته ی موازی و غیرموازی دسته بندی کردیم.