نام پژوهشگر: فاطمه محمودلو

بررسی الگوریتم های خوشه بندی با رویکرد بهبود در دقت آنها
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده ریاضی 1392
  فاطمه محمودلو   محمد رضا فیضی درخشی

خوشه بندی قرار دادن داده ها در گروه هایی است، که اعضای هر گروه از زاویه ی خاصی شبیه یکدیگرند، بطوریکه شباهت درون هر خوشه حداکثر و شباهت بین داده های درون خوشه های متفاوت، حداقل باشد خوشه بندی فرآیند یادگیری . بدون ناظر است که از قبل هیچ دانشی درباره برچسب داده ها ندارد. روش های زیادی برای خوشه بندی وجود دارد که می توان آنها را به روش های افرازبندی و سلسله مراتبی تقسیم کرد. در این پایان نامه از الگوریتم فراابتکاری جدیدی به نام الگوریتم جنگل که از طبیعت جنگل الهام گرفته شده، برای خوشه بندی استفاده شده است.در این الگوریتم، برای رهایی از بهینه های محلی، تغییراتی در قسمت دانه پراکنی محلی انجام شد و نتایج خوبی بدست آمد. برای ارزیابی، روش ارائه شده را روی دو سری مجموعه داده مورد آزمایش قرار دادیم. سری اول شامل داده های استاندارد و سری دوم شامل مجموعه داده های حقیقی استخراج شده جهت عیب یابی سیستم های دوار مکانیکی، است. همچنین از روش های شناخته شده ای نظیر روش های ga، pso، aco، cas_c و k-means برای مقایسه نتایج بدست آمده استفاده شده است. این الگوریتم برای داده های استاندارد کمترین مقدار مجموع مجذور فاصله درون خوشه ها را بدست آورد. این مقدار در داده iris برابر 96.6557 با انحراف معیار 0.001، در wine برابر 16292.4100 با انحراف معیار 5.3474 و در داده های glass برابر 210.5340 با انحراف معیار 1.8029 است که در مقایسه با دیگر روش ها، روش فوق نتیجه مطلوبی را تولید می کند. همچنین در این روش فاصله درون خوشه ها کاهش و فاصله بیرون خوشه ها افزایش پیدا کرده است. علاوه بر این روش فوق درصد خطای خوشه بندی پایین تری نسبت به دیگر روش ها دارد.