محبوبه مهدی زاده

نام پژوهشگر: محبوبه مهدی زاده

بهبود الگوریتم های طبقه بندی مجموعه داده های نامتوازن با استفاده از روش های فازی و الگوریتم های تکاملی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شهید باهنر کرمان - دانشکده برق و کامپیوتر 1392
محبوبه مهدی زاده مهدی افتخاری

طبقه بندی عملی مهم در داده کاوی و کشف دانش از پایگاه داده است. در اغلب موارد، زمانی که تلاش می کنیم تا یک طبقه بند را از داده های آموزشی یاد بگیریم، داده های آموزشی توزیع کلاس نامتوازنی دارند. مسألهی طبقه‏بندی نامتوازنِ باینری بدین صورت تعریف می شود: یک مسأله ی طبقه‏بندی است که در آن تفاوت قابل توجهی میان میزان نمونه‏های دو کلاس‎ وجود دارد. اغلب الگوریتم های یادگیری ماشین فرض می کنند که تعداد نمونه های آموزشی در کلاس های متفاوت برابر می باشند و براین اساس، یک طبقه بند را یاد می گیرند؛ بنابراین زمانی که این الگوریتم ها را به داده های نامتوازن اعمال می کنیم، طبقه بند یادگرفته شده غالباً از کلاس اکثریت منتج می شود که این موضوع به پیش بینی بسیار ضعیف از کلاس اقلیت منجر می شود زیرا آموزش کلاس اقلیت به درستی انجام نشده است. بنابراین، کنترل و حل مسأله داده ی نامتوازن برای بهبود کارایی امری ضروری است. روش های بسیاری برای مسأله یادگیری نامتوازن پیشنهاد شده است که به دو دسته ی اصلی تقسیم می شوند: نمونه گیری از داده و اصلاح الگوریتم های موجود. در این کار تحقیقاتی، از تئوری فازی و الگوریتم های تکاملی استفاده می کنیم و با استفاده از این تکنیک ها، پنج الگوریتم برای مواجهه با مسائل نامتوازن پیشنهاد می دهیم. از میان روش های ارائه شده، روش های اول تا چهارم سعی در بهبود سیستم های طبقه بندی مبتنی برقوانین فازی دارند تا این طبقه بندها با مسائل نامتوازن سازگار شوند و روش پیشنهادی پنجم با استفاده از نمونه گیری از داده ها سبب متوازن شدن مجموعه داده می شود. نتایج حاصل از اعمال این روش ها نشان دهنده ی برتری آن ها نسبت به روش هایی است که اخیراً در این حوزه ارائه شده اند. همچنین با مقایسه ی روش های پیشنهادی با یکدیگر در می یابیم که روش پیشنهادی دوم (که روشی حساس به هزینه می باشد و از تئوری فازی و دو الگوریتم تکاملی استفاده می کند) عملکرد بهتری نسبت به سایر روش های پیشنهادی دارد.