رفع ابهام معنایی در ترجمه ماشینی بر پایه شباهت مفهومی در متون
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر
- نویسنده مردمک عسکری زاده کوویی
- استاد راهنما محمد هادی صدرالدینی غلامحسین دستغیبی فرد
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1390
چکیده
یکی از مسائل مهم جهت ترجمه ای دقیق و با کیفیت بالا، رفع ابهام معنایی کلمات است. ابهام معنایی اشاره به حالتی دارد که یک کلمه بیش از یک معنی داشته باشد. این نوع چند معنایی برای سیستمهای مترجم ماشینی چالشی بزرگ به شمار می آید. در این تحقیق برآنیم تا با یکی از روش های یادگیری بانظارت، معنی درست کلمه ی مبهم را در متن تشخیص دهیم. به این منظور با استفاده از الگوریتم knn متون مورد بررسی را کلاس بندی می نماییم، که دلیل استفاده از این الگوریتم، موفقیت زیاد آن در دسته بندی اسناد، در زبانهای مختلف می باشد. الگوریتم knn از همسایه ها برای کلاسه کردن هر عضو جدید یا نمونه جدید استفاده می کند و پیش بینی خروجی خود را بر اساس k تا از نزدیکتیرن همسایه ها به نقطه ( شی) موردنظر انجام می دهد. برای اینکه نزدیکترین همسایه ها را به نقطه موردنظر تشخیص دهیم و مشخص کنیم، نیاز به معیارهای اندازه گیری فاصله بین نقطه ی مورد نظر (هدف) و داده های آزمایشی داریم. این معیارهای اندازه گیری فاصله عبارتند از : فاصله اقلیدسی، فاصله بلاک شهری یا منهتن ، فاصله مینکووسکی ، ضریب جاکارد ، همبستگی ، فاصله کسینوسی و فاصله ماهالانوبیز. برای اینکه بتوان هر مجموعه متون را کلاس بندی کرد، ابتدا بایستی یک سری خصوصیات را از متن مورد نظر استخراج کرد و سپس بردار خصوصیات تشکیل داد. از آنجایی که در شناخت معنی صحیح یک کلمه ی مبهم، کلمات اطراف آن نقش به سزایی دارند، این کلمات، بعنوان خصوصیات در نظر گرفته شده اند و برای بررسی بهترین عملکرد، 8 مجموعه متفاوت از خصوصیات که در هرکدام از این مجموعه ها تعداد کلمات اطراف کلمه ی مبهم متفاوت هستند، مورد بررسی قرار داده شده اند. بردار خصوصیات را هشت حالت مختلف با تعداد 3، 4، 5، 6، 7، 8، 9 و 10 کلمه ، قبل و بعد از کلمه مبهم مشخص کرده ایم و هر بار روی هر کدام از این داده ها الگوریتم را اجرا نموده ایم، الگوریتم را با k های متفاوتی که برابر 1، 3، 5 و 10 می باشد هربار اجرا می کنیم و برای چهار معیار شباهت یعنی اقلیدسی، بلاک شهری، کسینوسی و همبستگی دقت را اندازه گیری می نماییم و در نتیجه برای هر مجموعه متون 128 حالت مختلف را مورد بررسی قرار داده ایم و در پایان نتایج حاصل از ارزیابی طرح پیشنهادی و تاثیر معیارهای متفاوت شباهت در رفع ابهام معنایی بررسی و مقایسه گردیده است. بنابر، بررسی های انجام شده بالاترین دقت را هنگامی به دست می آوریم که از فاصله کسینوسی بعنوان معیار اندازه گیری فاصله استفاده می کنیم و با در نظر گرفتن k برابر با 3 و همچنین بردار خصوصیات برابر با 6w یعنی هنگامی که 6 کلمه قبل و 6 کلمه بعد از کلمه ی مبهم را برای رفع ابهام در نظر می گیریم به نتایج بهتری دست می یابیم و معنی درست کلمه مبهم با احتمال تقریبا 83 درصد به دست می آید.
منابع مشابه
مطالعه مسائل جاری رفع ابهام در ترجمه ماشینی مبتنی بر مجموعه متون و ارئه راه کارهای جدید
با ماشینی شدن کارها و کاهش نقش مستقیم انسان در به انجام رساندن پروژه های مختلف، لزوم وجود نرم افزاری هوشمند برای ترجمه روان متون انگلیسی به فارسی و بالعکس بر متخصصین، مهندسان و مترجمان، پوشیده نیست. یک کاربرد مهم ترجمه ماشینی که از ابتدا مطرح بوده، کاربرد نظامی است که شروع آن از وزارت دفاع آمریکا بوده است و هم اکنون نیزاز آن بطور جدی در بخش نظامی استفاده می شود. جالب است که اخیرا مترجم ماشینی ف...
15 صفحه اولسامانۀ رفع ابهام معنایی از حروف اضافه در زبان فارسی با استفاده از قالبهای معنایی
رفع ابهام معنایی از کلمات در بافت یکی از مهمترین چالشها در حوزۀ پردازش زبان طبیعی و زبانشناسی رایانشی است. در این میان حروف اضافه، بهخصوص در زبان فارسی، در پژوهشهای مربوط به رفع ابهام معنایی همواره نادیده انگاشته شدهاند. ازاینرو، پژوهش حاضر قصد دارد با ارائۀ الگوریتمی جدید مبتنی بر قالبهای معنایی، سامانهای قاعدهمند جهت رفع ابهام معنایی از حروف اضافه «از»، «در»، «با» و «تا» در زبان فار...
متن کاملرفع ابهام معنایی واژگان مبهم فارسی با مدل موضوعی LDA
Word sense disambiguation is the task of identifying the correct sense for the word in a given context among a finite set of possible sense. In this paper a model for farsi word sense disambiguation is presented. The model use two group of features: first, all word and stop words around target word and topic models as second features. We extract topics from a farsi corpus with Latent Dirichlet ...
متن کاملتخمین موثری از شباهت متون در ترجمه ماشینی مبتنی بر مثال
ترجمه ماشینی یکی از مهمترین شاخه¬های تحقیقاتی در زمینه پردازش زبان طبیعی می¬باشد. ترجمه ماشینی عبارت است از برگردان متنی از یک زبان به زبان دیگر توسط ماشین به طوری که مفهوم متن در زبان مبدأ بدون تغییر به زبان مقصد منتقل شود. یکی از سیستم¬های ترجمه ماشینی، سیستم مبتنی بر مثال می¬باشد. در این رویکرد برای ترجمه یک ترکیب از کلمات، به مجموعه متون ترجمه شده قبلی مراجعه می¬شود تا بجای ترجمه لفظ به لفظ...
15 صفحه اولنگرشی بر ترجمه ماشینی
از دیر باز بشر همیشه در آرزوی اختراع دستگاهی بوده است که بتواند متون را از زبان مبداء به زبان مقصد با سرعت و دقت فراوان ترجمه کند. تلاش برای رسیدن به این آرزو بیش از پنج دهه است که آغاز شده است و محققان دسا اوردهایی در زمینه طراحی سیستم ها و ساخت ماشین های مترجم بدست آورده اند ولی نام ماشینهای مترجم همواره مفهوم منفی را در ذهن افراد تداعی می کند و بیشتر مترجمان و محققان نظر منفی درباره ماشینهای...
متن کاملابهام در ماشین ترجمه
هدف از انجام این تحقیق، بررسی گونههای مهم ابهام واژگانی و ساختاری و نیز مشکلاتی است که اینگونه ابهامها را در امر ترجمه ماشینی ایجاد مینمایند. برای انجام این کار پنج نوع مهم ابهام واژگانی با عناوین ابهامهای مقولهای، واژههای همآوا ـ همنویسه، واژههای همنویسه، چند معنایی و ابهام انتقالی، با ارائه مثالهایی از فارسی و انگلیسی مورد بررسی قرار گرفت. سپس ابهام ساختاری بررسی شد و دو نوع ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023