نام پژوهشگر: سمیه رویین تن اردکانی

اصلاح خوشه بندی k-means توسط الگوریتم ژنتیک بهبودیافته
thesis موسسه آموزش عالی غیردولتی و غیرانتفاعی صنعتی فولاد - دانشکده علوم پایه 1392
  سمیه رویین تن اردکانی   محمد نادری دهکردی

خوشه بندی تکنیکی از داده¬کاوی است که تعدادی آیتم را می¬گیرد و آنها را براساس ویژگیها¬یشان درون خوشه¬ها قرار می¬دهد. آیتمهای درون هر خوشه بیشترین میزان شباهت را در ویژگی بخصوصی که از پیش مشخص شده است،با هم دارند و آیتمهای خوشه¬های مختلف بیشترین تفاوت را در آن ویژگی، نسبت به هم دارند. خوشه¬بندی انواع مختلفی دارد که k-means یکی از بهترین و ساده¬ترین آنهاست. این خوشه¬بندی به این دلیل که پایه¬ی برخی دیگر از انواع خوشه¬بندی¬هاست، دارای اهمیت است و تلاشهایی برای رفع محدودیتهای این خوشه¬بندی صورت گرفته است. در خوشه¬بندی k-means نقاط اولیه بصورت تصادفی انتخاب می¬شود پس اجراهای مختلف با مجموعه داده¬های یکسان، نتایج متفاوتی را حاصل می¬کند. همین مسئله گاهی سبب می شود این خوشه بندی به سمت مینیمم محلی همگرا شود که از معایب اصلی این خوشه¬بندی است و باید آن را به سمت مینیمم سراسری برد. ¬یکی از راه¬حلهای بکارگرفته شده استفاده از الگوریتمهای بهینه¬ساز است. الگوریتم رقابت کشورهای استعماری، الگوریتم اجتماع ذرات، الگوریتم ژنتیک و کلونی مورچگان از جمله مهمترین الگوریتمهای بهینه¬ساز است که برای رفع محدودیتهای خوشه¬بندی k-means بکار گرفته شده¬اند. الگوریتم ژنتیک جز محبوب¬ترین این الگوریتمهاست و تحقیقاتی برای بهتر ساختن k-means توسط آن صورت گرفته است. الگوریتم ژنتیک یک تکنیک برنامه نویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده می کند. هر راه حل کاندید را ارزیابی می کند که اکثر آنها به صورت تصادفی انتخاب می شوند. الگوریتم ژنتیک بدلیل دارابودن عملگرهایی نظیر جهش تضمین می¬کند که کل فضای مسئله را مورد بررسی قرار دهد بنابراین برای رفع مشکل خوشه¬بندی k-means و جلوگیری از همگرا شدن خوشه¬بندی k-means به مینیمم محلی کارساز است. الگوریتم ژنتیک ساده فقط با یک جمعیت اولیه درگیر است که با پارامترهای عملگرهای ژنتیک ثابت انتخاب شده است و نیازمند زمان زیادی جهت انجام محاسبات فاصله و تکرارهای متوالی است. در یک الگوریتم ژنتیک ساده فقط یک نسل به همراه عملگرهای بکاررفته در آن وجود دارد. الگوریتم ژنتیک با توجه به طبیعت موازی جستجوی ژنتیکی و زمانبر بودن محاسبات کاندیدای خوبی برای موازی¬سازی است. در این پایان¬نامه از الگوریتم ژنتیک اصلاح شده¬ استفاده می¬گردد که بصورت موازی پیاده¬سازی شده است. برای اینکه بتوان یک برنامه را ازحالت اجرای ترتیبی که حالت معمول در اجرای برنامه¬هاست، به حالت موازی برد، باید بتوان برنامه را به چند برنامه کوچکتر تقسیم کرد تا هر بخش بتواند بصورت همزمان با استفاده از منابع محاسباتی پردازش گردند و نتیجه دلخواه را تولید کنند. متد پیشنهادی این پایان¬نامه به این دلیل که دارای چارچوبی مشابه با الگوریتم ژنتیک معمول است، قابلیت اجرا به صورت موازی¬ را دارد. همچنین الگوریتم ژنتیک از ابزارهای مناسب در مسائل چندهدفه است. با استفاده از این ویژگی در متد پیشنهادی پایان¬نامه از الگوریتم ژنتیک به گونه¬ای استفاده شده است که ابتدا دور بودن مراکز اولیه خوشه¬ها را مورد بررسی قرار دهد و سپس از میان دورترین مراکز خوشه بندیهایی که خوشه¬های متراکم¬تری دارند را بعنوان خوشه¬بندیهای برتر انتخاب ¬کند. بصورت کلی هدف ارائه¬ی الگوریتم ژنتیک بهبودیافته¬ای است که بصورت بهینه نسبت به الگوریتم ژنتیک ساده، خوشه¬بندی k-means را انجام ¬دهد و به بهبود نسبی هم در دقت و هم در سرعت دست یابد.