نام پژوهشگر: اکرم احمدی طامه

ساخت وردنت فارسی در حوزه ی فاوا به کمک وردنت های دیگر
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی 1391
  اکرم احمدی طامه   محمد نصیری

وردنت یک پایگاه داده ی لغوی بزرگ است که برای ابهام زدایی کلمات، بازیابی اطلاعات و ترجمه ی متون استفاده می-شود. این پایگاه داده ی لغوی شامل اسم، فعل، صفت و قید است که کلمات هم معنی را در مجموعه هایی به نام ترادف دسته بندی می کند. در این پژوهش روش های خودکار را برای استخراج دادگان حوزه ی فناوری اطلاعات و ارتباطات (فاوا) از وردنت عمومی انگلیسی پرینستون پیشنهاد می کنیم و در مرحله ی بعد آن را به منظور ساخت وردنت فارسی نگاشت می دهیم. مزیت روش خودکار کاهش دخالت عامل انسانی و در نتیجه سرعت بخشی به فرایند توسعه وردنت فاوا می باشد. به همین منظور، چندین روش استخراج خودکار بر اساس تعریف ترادف، روابط معنایی بین ترداف های وردنت، شباهت بین تعریف ترادف ها و تعاریف لغت نامه-های تخصصی موجود و بالاخره ترادف های برادر ارائه نموده ایم. نتایج پیاده سازی و ارزیابی این روش ها بر روی وردنت پرینستون نشان می دهد که استخراج دادگان فاوا دقت قابل قبولی به همراه داشته است.