نام پژوهشگر: نسیمه صفاهیه

رده بندی مجموعه داده های نامتوازن با استفاده از تکنیک های داده کاوی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه قم - دانشکده فنی 1391
  نسیمه صفاهیه   بهروز مینایی بیدگلی

یکی از چالش های علمی امروز رویارویی با مجموعه داده های نامتوازن است. در این مجموعه داده ها، یکی از کلاس ها تعداد نمونه های بسیار کمتری نسبت به سایرین دارد(کلاس حداقلی) و همچنین از اهمیت بیشتری برخوردار است. تعلق تعداد زیادی از نمونه ها به یک کلاس(کلاس حداکثری) روند رده بندی با روش های معمول رده بندی را با مشکل مواجه می-کند. روش های معمول رده بندی، داده ها را به کلاس حداکثری منتسب می کنند از این رو صحت رده بندی بالا خواهد بود ولی قابل اعتماد نیست. در این تحقیق روش های ترکیبی جدیدی در سطح داده برای حل این مشکل معرفی خواهند شد. با کمک این روش ها توزیع نامتوازن داده ها، توازن یافته و اجرای رده بند ها بر روی آن ها عملکرد بهتری خواهند داشت. در این تحقیق روش های بیش نمونه برداری و زیرنمونه برداری ترکیب شده اند. روش های ترکیبی این تحقیق تأثیر بهتری نسبت به روش های دیگر دارند که با اجرای آن ها بر روی مجموعه داده ها و محاسبه معیار ارزیابی این امر نشان داده خواهد شد.