خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی
نویسنده مریم امیری
استاد راهنما حسن ختن لو کاظم فولادی
سال انتشار 1390

چکیده

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از مقدار زیادی داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد.سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با توجه به اینکه کلمات کلیدی مختلف می توانند برای توصیف یک مفهوم استفاده شوند، این سیستم ها می توانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گام ها در خوشه بندی اسناد نحوه ی نمایش اسناد و معیار اندازه گیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشه بندی اسناد تمرکز دارد. الگوریتم خوشه بندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازه گیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازه گیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشه بندی پایین به بالا خوشه بندی اسناد صورت می پذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده می شوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار می باشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش می دهد. مفاهیم استخراج شده گره های گراف را تشکیل می دهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه می گردد. روابط موجود بین مفاهیم سند، یال های گراف و میزان این ارتباط اوزان یال ها را مشخص می نماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحله ی اول، مفاهیم کلی و جزئی و یال های اصلی مشخص می گردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه می شود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودی ها مفاهیم کلی، مفاهیم جزئی و یال های اصلی می باشند و خروجی میزان شباهت بین دو سند است. مجموعه ای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین می زند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشه بندی سلسله مراتبی پایین به بالا به منظور خوشه بندی اسناد اعمال می گردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روش های naïve bayes ، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان می دهند که روش پیشنهاد شده مقادیر f-measure و accuracy را بهبود می دهد. همچنین مقادیر fp و error به میزان قابل توجهی کاهش می یابد.

منابع مشابه

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...

متن کامل

خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

Data mining, also known as knowledge discovery in database, is the process to discover unknown knowledge from a large amount of data. Text mining is to apply data mining techniques to extract knowledge from unstructured text. Text clustering is one of important techniques of text mining, which is the unsupervised classification of similar documents into different groups. The most important step...

متن کامل

ارایه شاخصی جدید جهت سنجش اعتبار خوشه بندی در الگوریتم های خوشه بندی فازی نوع-2

One of the main issues in fuzzy clustering is to determine the number of clusters that should be available before clustering and selection of different values for the number of clusters will lead to different results. Then, different clusters obtained from different number of clusters should be validated with an index. But so far such an index has not been introduced for interval type-2 fuzzy C...

متن کامل

خوشه بندی فراابتکاری اسناد فارسی اِکس اِم اِل مبتنی بر شباهت ساختاری و محتوایی

با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری می باشد. یک راه حل امکان پذیر، انجام خوشه بندی بر روی اسناد xml به منظور کشف دانش است. مسئله کلیدی در خوشه بندی اسناد xml این است که چگونه می توان شباهت بین اسناد xml را اندازه گیری کرد. استفاده از روش های متداول خوشه بندی اسناد متنی که اطلاعات محتوایی را برای اندازه گیری شباهت سند بکا...

متن کامل

اثربخشی بسط پرس وجو مبتنی بر خوشه بندی اسناد شبه بازخورد با الگوریتم k-nn

بسط پرس وجو یکی از روش های مؤثر در بهبود اثربخشی نتایج بازیابی اطلاعات است. روش بازخورد شبه مرتبط (prf) فرض می کند که اسناد رتبه بالا از نتایج اولیه بازیابی شده مرتبط به پرس وجو است و تعدادی کلمه مرتبط را از اسناد رتبه بالا برای بسط انتخاب می کند. وجود اسناد نامرتبط در بین اسناد رتبه بالا محققان را به ارائه روش هایی برای انتخاب بهترین اسناد به عنوان منبع برای انتخاب کلمه بسط سوق می دهد که انتخا...

متن کامل

الگوریتم خوشه بندی کارا مبتنی بر مجموعه های فازی شهودی

نظریه مجموعه های فازی شهودی به عنوان توسیعی از مجموعه های فازی دامنه کاربردی زیادی از قبیل برنامه ریزی های منطقی، تشخیص های پزشکی، الگو های شناختی و ... را شامل می شود. استفاده از این مجموعه ها به عنوان ابزاری کارا و سودمند در زمینه تکنیک های خوشه بندی می تواند بسیار مفید باشد. همان طور که می دانیم الگوریتم های خوشه بندی گوناگونی برای استخراج دانش از درون اطلاعات مختلف وجود دارد. شاید یکی از کا...

15 صفحه اول

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی

کلمات کلیدی

خوشه بندی اسناد گراف هستان شناسی معیار شباهت سیستم اسنتاج فازی

میزبانی شده توسط پلتفرم ابری doprax.com