نام پژوهشگر: علی مرادی لالمی

خوشه بندی اسناد xml به منظور کشف دانش
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه گیلان - دانشکده فنی 1392
  علی مرادی لالمی   رضا ابراهیمی آتانی

امروزه اطلاعات موجود بر روی وب به سرعت در حال افزایش است و حجم بسیار زیادی از این اطلاعات در قالب xml ارائه شده است. یکی از مزایای اصلی استفاده از xml، نمایش داده های غیر ساخت یافته است که قابلیت های بسیاری را در اختیار کاربران قرار می دهد. ویژگی غیر ساخت یافته بودن اطلاعات و انعطاف پذیری xml باعث همه گیر شدن استفاده از آن شده است. با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این اسناد xml به منظور بازیابی اطلاعات مفید از آنها ضروری است. یک راه حل امکان پذیر، انجام خوشه بندی بر روی اسناد xml به منظور کشف دانش است که باعث ارتقای مدیریت موثر داده ها، بازیابی اطلاعات و پردازش پرس و جو ها می شود. با این حال، مسائل بسیاری در کشف دانش از این نوع مدارک نیمه ساخت یافته با توجه به ناهمگونی و بی نظمی ساختاری آنها به وجود می آیند. بسیاری از پژوهش های موجود بر روی تکنیک های خوشه بندی، فقط بر روی یکی از ویژگی های اسناد xml، یعنی ساختار و یا محتوای آنها و با توجه به مشکلات مقیاس پذیری و پیچیدگی و آن هم در محدوده زبان انگلیسی متمرکز هستند. در این پایان نامه پس از بررسی روش های موجود، روشی برای خوشه بندی اسناد فارسی xml مبتنی بر هر دو ویژگی ساختاری و محتوایی اسناد و با استفاده از الگوریتم بهینه سازی رقابت استعماری ارائه می شود. برای اثبات کارایی و دقت خوشه بندی روش پیشنهادی از معیارهای موجود بهره گرفته و این روش با نمونه های قبلی ارائه شده مقایسه می شود.