نام پژوهشگر: سهیلا اشکذری طوسی
سهیلا اشکذری طوسی هادی صدوقی یزدی
خوشه بندی یکی از مهم ترین ابزارهای شناسایی الگو در استخراج دانش و دسته بندی اطلاعات می باشد. روش های مختلفی برای خوشه بندی ارائه شده است که هر یک سعی دارند تا بهترین گروه بندی را برای مجموعه داده مورد بررسی ارائه دهند. اما هنگامی که داده ها ساختاری غیرخطی و نامحدب داشته باشند، روش های کلاسیک خوشه بندی قادر به افراز صحیح داده ها نمی باشند. خوشه بندی طیفی یک راه حل مناسب برای چنین مسائلی می باشد. در خوشه بندی طیفی با مدل کردن میزان شباهت داده ها و استفاده از بردارهای ویژه انواع ماتریس های لاپلاسین، سعی شده است تا با ارائه الگوریتم های مختلف، از دانشی که در مجموعه داده وجود دارد برای افراز آن استفاده شود. برای این منظور، بردارهای ویژه ماتریس لاپلاسین بر اساس ترتیب نزولی مقادیر ویژه شان مرتب شده و تعداد محدودی از این لیست مرتب شده برای بازنمایی داده ها انتخاب می شوند. اما این ترتیب همیشه توانمندترین بردارهای ویژه را در اختیار ما قرار نمی دهد. در این پایان نامه، سعی شده است تا مسئله انتخاب بهترین بردارهای ویژه را در قالب یک مسئله بهینه سازی درجه دوم مقید آمیخته، ارائه و حل نماییم. در نظر گرفتن میزان کارایی هریک از بردارهای ویژه به طور مجزا، در توصیف ساختار داده ها و همچنین توجه به میزان ارتباط بردارهای مختلف با یکدیگر معیارهایی می باشند که در مدل پیشنهادی درنظر گرفته شده اند. علاوه بر این، یکی دیگر از مشکلات عمده در خوشه بندی داده ها، وجود داده های نویزی و پرت در مجموعه داده می باشد. در قسمت دوم روش پیشنهادی در این پایان نامه، مدلی را ارائه نمودیم که طی آن با افراز مجموعه داده به چندین زیرخوشه و مدل نمودن مرز زیرخوشه ها، میزان شباهت داده ها به این زیرخوشه ها را محاسبه و سپس از این اطلاعات در الگوریتم خوشه بندی طیفی برای افراز داده ها بهره بردیم. نتایج آزمایش ها به روی مجموعه داده های واقعی و مصنوعی بیانگر موفقیت هر دو روش پیشنهادی می باشد.