نام پژوهشگر: آرمیندخت هاشم پور صادقیان
آرمیندخت هاشم پور صادقیان حسین نظام آبادی پور
خوشه بندی داده، روشی برای تحلیل داده هاست که حجم بزرگی از داده ها را در گروه های معناداری از موضوعات به نام خوشه خلاصه می کند به نحوی که داده های موجود در هر خوشه، دارای حداکثر میزان شباهت به یکدیگر بر اساس یک معیار شباهت هستند و داده های موجود در خوشه های مختلف دارای حداکثر میزان اختلاف از یکدیگرند. خوشه بندی در بسیاری از کاربردها از جمله بیوانفورماتیک، بازشناسی الگو، پردازش تصویر، داده کاوی و متن کاوی کاربرد دارد. تاکنون روشهای بسیاری برای خوشه بندی ارائه شده که دارای تعاریف مختلفی برای خوشه ها، متدلوژی خوشه بندی و معیارهای شباهت هستند. بدیهی است که هیچ یک از روشهای خوشه بندی نمی تواند برای انواع ساختارهای داده ای مورد استفاده قرار گیرد. ترکیب چند راه حل به دست آمده در خوشه بندی، می تواند منجر به ارتقای کیفیت نتیجه ی به دست آمده از الگوریتم های پایه شود. در این پایان نامه، یک روش جدید برای ترکیب نتایج چند الگوریتم خوشه بندی بر مبنای تئوری گرانش، ارائه شده است که خوشه بندی مشارکتی گرانشی نام دارد. با توجه به رشد نمایی حجم اطلاعات و مستندات در فضای وب، ارائه ی راهکارهایی جهت دسته-بندی مطلوب داده ها، حائز اهمیت است تا از این طریق پردازش اطلاعات موجود در مستندات وب، آسان شود. بنابراین خوشه بندی مستندات وب در این پایان نامه مورد توجه قرار گرفته و الگوریتم پیشنهادی برای خوشه بندی مستندات وب به کار رفته است. الگوریتم پیشنهادی، با استفاده از معیارهای کیفیت خوشه بندی مورد ارزیابی قرار گرفته و با چند روش معروف در خوشه بندی ترکیبی مقایسه شده است. نتایج آزمایش ها نشان می دهد که روش پیشنهادی قادر است در ترکیب چند راه حل حاصل از الگوریتم های خوشه بندی با کیفیت بالایی عمل کند. روش پیشنهادی، در مقایسه با سایر روش های ترکیب خوشه بندی دارای پیچیدگی محاسباتی کمتری است و قادر است خوشه هایی با ساختار پیچیده را استخراج کند که این دو ویژگی در اغلب الگوریتم های خوشه بندی به صورت همزمان یافت نمی شود.