خوشه‌بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

author

Abstract:

Data mining, also known as knowledge discovery in database, is the process to discover unknown knowledge from a large amount of data. Text mining is to apply data mining techniques to extract knowledge from unstructured text. Text clustering is one of important techniques of text mining, which is the unsupervised classification of similar documents into different groups. The most important steps in document clustering are how documents are represented and the measurement of similarities between them. By giving a new ontological representation and a similarity measure, this research focuses on improving the performance of text clustering. The text clustering algorithm has been investigated in three aspects: ontological representation of documents, documents similarity measure, fuzzy inference system to measuring the final similarities. Ultimately, the clustering is carried out by bottom-up hierarchical clustering. In the first step, documents are represented as ontological graph according to domain knowledge. In contrast to keywords method, this method is based on domain concepts and represents a document as subgraph of domain ontology. The extracted concepts of document are the graph nodes. Weight is measured for each node in terms of concept frequency. The relation between documents’ concepts specifies the graph edges and the scope of the concepts’ relation determines the edge’s weight. In the second step, a new similarity measure has been presented proportional to the ontological representation. For each document, main and detailed concepts and main edges are determined. The similarity of each couple of documents is computed in three amounts and according to these three factors. In the third step, the fuzzy inference system with three inputs and one output has been designed. Inputs are the similarities of main concepts, detailed concepts and the main edges of two documents and the output is final similarities of the two documents. In final step, a bottom-up hierarchical clustering algorithm is used to clustering the documents according to final similarity matrix. In order to evaluate, the offered method has been compared with the results of Naïve Bayes method and ontology based algorithms. The results indicate that the proposed method improves the precision, recall, F-measure and accuracy and produces more meaningful results.

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...

full text

خوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی

داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از مقدار زیادی داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد.سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می...

مقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure

کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...

full text

فیلتر کردن پویای هرزنامه مبتنی بر آنتولوژی

سرویس پست الکترونیک یکی از محبوب ترین سرویس های اینترنت است که بخش مهمی از این ایمیل ها، مورد درخواست و تقاضای کاربر نیست. عدم درخواست این ایمیل ها و یا عدم شناسایی فرستنده هرزنامه تعریف می شود که البته همین تعریف نیز مورد توافق همه افراد قرار نگرفته است. از مهمترین چالش های شناخت هرزنامه، وابستگی آن به سلایق کاربر است. به-عبارت دیگر یک ایمیل ممکن است برای فردی هرزنامه و برای فرد دیگری ایمیل مو...

15 صفحه اول

به کارگیری رویکرد فازی در تطابق آنتولوژی و ارزیابی کاربردی آن

هستی شناسی مدلی برای نمایش یک دامنه است و برای استدلال درمورد اشیا و روابط بین آنها در همان دامنه به کار می رود. هستی شناسی معمولا شامل مفاهیم، روابط بین مفاهیم، نمونه ها و ویژگی های مفاهیم است. در سالیان گذشته تعداد هستی شناسی های موجود به شدت افزایش یافته است. وجود این سطح از تنوع، مسئله ادغام و استفاده مجدد از اطلاعات را مطرح می نماید. اگرچه که با بررسی دقیق تر هستی شناسی ها می بینیم که بسیا...

مدل انتخاب نرم‌افزار مدیریت خدمات فناوری اطلاعات مبتنی بر رویکرد تاپسیس فازی

تعداد فزاینده‌ای از سازمان‌ها در حال اجرای چارچوب‌های مختلف مدیریت خدمات فناوری اطلاعات (ITSM)، به‌منظور بهبود خدمات و فرایندهای فناوری اطلاعات خود هستند. برای پیاده‌سازی موفق پروژه‌های ITSM در یک سازمان، انتخاب سیستم مناسب ITSM ضروری است. ارزیابی و انتخاب بسته‌های نرم‌افزاری ITSM، فرایندی پیچیده و وقت‌گیر است. انتخاب سیستم نامناسب ممکن است پُرهزینه باشد و تأثیرات بسیار بدی بر فرایندها و خدمات ف...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 5  issue 17

pages  73- 96

publication date 2015-03

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

No Keywords

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023