نام پژوهشگر: الهه راشدی

الگوریتم خوشه بندی سلسله مراتبی چندگانه
thesis وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و کامپیوتر 1390
  الهه راشدی   عبدالرضا میرزایی

ایده اصلی یادگیری تجمعی به منظور ترکیب پیش بینی یادگیرنده های چندگانه مطرح شده است. روش های یادگیری تجمعی در زمینه ی الگوریتم های یادگیری با ناظر و بدون ناظر، معمولاً نتایج بهتری در مقایسه با روش های واحد ایجاد می کنند. روش های طبقه بندی چندگانه، طبقه بندها را برای رسیدن به طبقه بندی با دقت پیش بینی بالاتر با یکدیگر ترکیب می کنند. به طور مشابه، روش های خوشه بندی چندگانه با ترکیب خوشه بندها، خوشه بندی هایی با کیفیت بالاتر ایجاد می کنند. رایج ترین روش های تجمعی قدرتمند اخیر روش بگینگ و روش تقویت هستند. روش تقویت یک مسأله عمومی در یادگیری ماشین است که یک الگوریتم یادگیری ضعیف را به الگوریتم قدرتمندتری با دقت بالاتر تبدیل می کند. الگوریتم های موفق بسیاری در زمینه سیستم های طبقه بند چندگانه بر مبنای روش بگینگ و روش تقویت ارائه شده اند، همچنین تعدادی الگوریتم خوشه بند چندگانه بر مبنای بگینگ و روش تقویت بر روی خوشه بندی های مسطح طراحی شده اند که در مقایسه با خوشه بندهای واحد دارای کیفیت بالاتری هستند. بر این اساس می توان انتظار داشت با استفاده از تجمع خوشه بندها در زمینه ی خوشه بندی ای سلسله مراتبی نیز بتوان به کیفیت بالاتری در ایجاد خوشه بندی های سلسله مراتبی دست یافت. بر اساس آخرین مطالعات انجام شده، مسأله تجمع خوشه بندهای سلسله مراتبی تاکنون چندان مورد توجه قرار نگرفته است. در این پایان نامه، دو راهکار چندگانه ارائه شده است که تجمعی از خوشه بندی های سلسله مراتبی را تولید و با یکدیگر ترکیب می کند. در راهکار اول یک روش میانگین گیری وزندار برای ترکیب خوشه بندی های موجود در تجمع پیشنهاد شده است که در آن وزن های ترکیب بر اساس الگوریتم وراثتی تعیین می گردند. در این الگوریتم، ابتدا دندروگرام های خوشه بندی های پایه ی موجود در تجمع به ماتریس توصیف عدم شباهت تبدیل شده و توسط الگوریتم وراثتی وزن دهی می شوند. سپس ماتریس های توصیف توسط عملگر جمع ماتریس ها به صورت وزن دار با یکدیگر ترکیب شده و ماتریس تجمیع نهایی را ایجاد می کنند. خوشه بندی نهایی به صورت دندروگرام حاصل از این ماتریس تجمیع خواهد بود. این الگوریتم می تواند دارای ورودی هایی از چند نوع خوشه بند اولیه متفاوت باشد. تحلیل نتایج تجربی بیانگر برتری کیفیت خوشه بندی ایجاد شده توسط روش پیشنهادی در مقایسه با الگوریتم های خوشه بندی عمومی است. در راهکار دوم، یک روش جدید خوشه بندی تجمعی بر مبنای تئوری تقویت به منظور افزایش دقت خوشه بندی معرفی شده است. الگوریتم پیشنهادی شامل چندین حلقه ی تکراری تقویت است که در هر حلقه ی تکرار یک زیر مجموعه الگوی آموزشی توسط نمونه برداری وزندار تصادفی از میان مجموعه داده ها انتخاب می شود و سپس یک خوشه بندی سلسله مراتبی بر روی این زیرمجموعه الگوها ایجاد می گردد. خوشه بندی تجمیعی نهایی به صورت ترکیب خوشه بندی های ایجاد شده در هر حلقه ی تکرار خواهد بود. در این الگوریتم عملیات ترکیب بر روی ماتریس های توصیف دندروگرام مرتبط با خوشه بندی سلسله مراتبی انجام می گیرد، به این صورت که ابتدا برای هر خوشه بندی سلسله مراتبی یک ماتریس توصیف استخراج می شود، سپس با تجمیع ماتریس های توصیف خوشه بندی های پایه با یکدیگر یک ماتریس تجمیعی به دست می آید که خوشه بندی نهایی از روی آن بازیابی می شود. تحلیل نتایج آزمایشهای انجام شده بر روی مجموعه داده های شناخته شده و همچنین نمایش بصری اعمال الگوریتم بر روی مجموعه داده های دو بعدی بصری برتری خوشه بندی های حاصل از این روش را بر روشهای خوشه بندی عمومی نشان می دهد.