استخراج روابط معنایی بین کلمات فارسی با استفاده از داده کاوی متن ها
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی
- نویسنده مهدی خلیلی
- استاد راهنما میر حسین دزفولیان محرم منصوری زاده
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1391
چکیده
استخراج اطلاعات یکی از زمینه های رایج پردازش زبان های طبیعی است که فعالیت خود را از همان ابتدای پیدایش پردازش هایی روی زبان های طبیعی آغاز کرده است. هدف از استخراج اطلاعات بدست آوردن اطلاعات مفیدی از منابع وسیع و غیر ساخت یافته موجود در فضای مجازی است. استخراج روابط معنایی یکی از شاخه های رایج در زمینه استخراج اطلاعات است. روابط معنایی زیادی را می توان تعریف کرد که از جمله مهمترین آنها رابطه های عام- خاص، کل-جزء، تضاد و ترادف است. رابطه عام-خاص بیانگر وجود نوعی شمول معنایی میان دو مفهوم است. یعنی مفهوم عام از نظر معنایی شامل مفهوم خاص می شود. بطور مثال "اتومبیل" نوعی "خودرو" است در نتیجه در این رابطه "خودرو" عام و "اتومبیل" خاص است. رابطه کل-جزء نشان دهنده ی نوعی عضویت است. بطور مثال یک بازیکن جزئی از یک تیم است در نتیجه در رابطه ی بین "بازیکن" و "تیم" کلمه ی "بازیکن" جزء و کلمه ی "تیم" کل است. در این پایان نامه سه روش مختلف برای استخراج روابط معنایی پیشنهاد شده است. روش اول بر پایه الگوهای متنی استوار است و برای استخراج روابط معنایی از یک برچسب گذار نقش دستوری کلمات فارسی استفاده می کند. طریقه ی کار این روش بدین صورت است که ابتدا با استفاده از جفت نمونه های اولیه، برای هر رابطه معنایی الگو های متنی را از پیکره استخراج کرده و سپس با توجه به نقش دستوری کلماتی که می توانند در کنار الگوی مورد نظر قرار بگیرند کلمات مرتبط معنایی را استخراج می کنیم. موفقیت این روش بطور متوسط برای الگوهای مختلف 65 درصد است. روش دوم یک روش بر پایه n-gramها است. در این روش هر دو کلمه که در یک n-gram قرار می گیرند همسایه نامیده می شوند. فرض بر این است که دو کلمه با هم رابطه معنایی دارند اگر تعداد همسایگان مشترک آنها بیش از حد آستانه باشد. میزان موفقیت این روش 42 درصد بوده است. روش سوم به منظور استخراج رابطه تضاد استفاده شده و برخلاف دو روش قبلی که از ویژگی های نحوی زبان استفاده می-کنند این روش از ویژگی های معنایی زبان استفاده می کند. در این روش دو کلمه به عنوان ورودی دریافت شده و برای تشخیص متضاد بودن آنها جملاتی از پیکره که شامل کلمه اول هستند استخراج شده و در آن جمله ها کلمه دوم را با کلمه اول جابجا کرده سپس فعل جمله را معکوس می کنیم. حال بررسی می کنیم اگر جمله بدست آمده از نظر معنایی درست باشد آنگاه آن دو کلمه با هم متضاد هستند. برای تعیین صحت جمله بدست آمده از دو روش دستی و خودکار استفاد شده که در روش دستی نتایج بسیار خوبی بدست آمده است.
منابع مشابه
تشخیص صحیح کلمات هم آوا در متون فارسی با استفاده از تکنیک متن کاوی
نوشتار کلمات فارسی به دلیل وجود حروف هم آوا پیچیده می باشد. افراد برای یادگیری املای کلمات باید با تمرین و ممارست آن را بیاموزند. نرم افزارهایی تحت عنوان غلط یاب جهت بررسی املای کلمات فارسی ارائه شده اند که با مقایسه نوشتار کلمات با دانش موجود در نرم افزار، صحت آنها را تشخیص می دهند. در این میان صحت برخی کلمات بر اساس متن مشخص می-شود (ممکن است کلمات از نظر املایی صحیح، ولی بر اساس متن جمله اشتب...
استخراج روابط معنایی در سطح گفتمان از متن
وب فعلی برای استفاده انسان ایجاد شده تا قادر به مشاهده اطلاعات مورد نیاز خود و فهم آنها باشد. وب معنایی در کنار این مهم، تعامل ماشین با محتویات وب و درک خودکار مفاهیم آن را مورد توجه قرار داده است. در این وب، محتویات بایستی بگونه ای قابل فهم برای ماشین نمایش داده شوند. عمده کارها در این حوزه به دو دسته استخراج مفاهیم و استخراج روابط تقسیم می شوند. بسیاری از کاربردها در استخراج اطلاعات، اکتساب ...
تحلیل معنایی کلمات مرکب اسم- اسم در زبان فارسی
ه پژوهش های زبان شناسیسال پنجم، شماره اول، بهار و تابستان 293132/3/ تاریخ وصول: 1131/1/ تاریخ اصلاحات: 1231/1/ تاریخ پذیرش: 9256 - صص 21__________________________________________________________________________________________gh5karimi@ut.ac.ir *استاد زبانشناسی دانشگاه تهران[email protected] **دانشجوی کارشناسی ارشد دانشگاه تهرانتحلیل معنایی کلمات مرکب اسم- اسم در زبان فارسی* غلامحسین کریمیدوس...
متن کاملتخمین میزان بقاء پیوند کلیه با استفاده از داده کاوی
هدف: نارسایی کلیه از مشکلات پرهزینه جوامع انسانی بهشمار میرود و استفاده از درمانهای جایگزین در حوزه کلیه در جهان و ایران رو به افزایش میباشد. بقاء یکی از حوزههای پیشآگهی پزشکی است و داده کاوی فرایند کشف روابط و الگوهای مناسب در دادههاست که به عنوان روشی کارامد برای تحلیل بقاء شناخته میشود. هدف مطالعه حاضر، پیشبینی بقاء پیوند کلیه بیمار بر اساس متغیرهای پیش از پیوند کلیه میباشد. مواد ...
متن کاملکاربرد ابزارهای تحلیلگر داده کاوی و متن کاوی در چابکی سازمانهای مراقبت بهداشتی و درمانی
Introduction: The word agility identified the speed and the power of responses during facing with organization internal and external matters. The health care organizations must be agile like any other organization in today fast speeding world, because being agile is an additional advantage in the competitive world. In this paper the organizations' agility, data mining, text mining, and the role...
متن کاملارائه روشی برای استخراج کلمات کلیدی و وزندهی کلمات برای بهبود طبقهبندی متون فارسی
Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023