نام پژوهشگر: احمد براانی

یافتن مرکز بهینه برای خوشه ها در الگوریتم k-means
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیخ بهایی - دانشکده مهندسی کامپیوتر 1392
  مهدی صادقیان   احمد براانی

چکیده داده کاوی به فرایند استخراج الگوهای پنهان و یا ویژگی های جالب و مفید از مجموعه داده ها گفته می شود که با استفاده از آن می توان به تصمیم گیری و پیش بینی رفتار آینده پرداخت. خوشه بندی در داده کاوی یکی از عملیات مهم در نتیجه گیری داده-کاوی بر روی داده ها به حساب می آید. خوشه بندی افراز بندی یک گروه متنوع به تعدادی زیر گروه مشابه یا گروه بندی مجموعه-ای از اشیاء به کلاسی از اشیاء مشابه می باشد، در هر خوشه باید داده هایی شبیه به هم قرار گیرند و کمترین شباهت را با داده-های موجود در دیگر خوشه ها دارا باشند. الگوریتم k-means یکی از روش های خوشه بندی است. در این الگوریتم ابتدا باید یک نقطه ی مرکزی برای هر خوشه انتخاب شود. یعنی در مرحله نخست باید k داده انتخاب شود که هر کدام معرف مرکز ابتدایی یک خوشه می باشند. سپس هر کدام از داده های باقیمانده در خوشه ای قرار داده می شود که بیشترین شباهت را به اعضائ آن داشته باشد. در ادامه، برای هر خوشه ی ایجاد شده بوسیله میانگین گیری از داده های آن خوشه، مرکز جدیدی بدست آورده و موقعیت هر داده برای خوشه های جدید محاسبه می گردد. این مرحله تا رسیدن به خوشه های قابل قبول ادامه می یابد. با مشخص کردن داده های مناسب برای مرکزهای اولیه خوشه ها می توان سرعت رسیدن به جواب نهایی را افزایش داد. برای یافتن مرکزهای اولیه بهینه بهتر است داده هایی انتخاب شوند که دارای تعداد همسایگی زیادی باشند. در روش پیشنهادی این پژوهش، برای یافتن داده های مناسب برای مراکز از بخش بندی (تقسیم) مجموعه داده ها استفاده شده است. در این روش مجموعه داده ها به تعداد خوشه مورد نیاز بخش بندی می شود. سپس میانگین هر کدام از این بخش های جدید به عنوان مراکز اولیه خوشه ها استفاده می شود. روش پیشنهادی باعث افزایش سرعت و دقت الگوریتم k-means می گردد. کلیدواژه ها: داده کاوی - خوشه بندی - مرکز خوشه ها – الگوریتم k-means