لیدا عبدی

نام پژوهشگر: لیدا عبدی

ارائه راه کاری برای یادگیری از داده های نامتوازن چندکلاسه با استفاده از الگوریتم های یادگیری جمعی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده برق و کامپیوتر 1392
لیدا عبدی ستار هاشمی

پردازش مجموعه داده های نامتوازن در بسیاری از کاربردهای دنیای واقعی، گسترده شده اند. این مسئله زمانی به وقوع می پیوندد که تعداد نمونه های یک یا چندین کلاس موجود در مجموعه داده، نسبت به تعداد نمونه های سایر کلاس ها کمتر باشند. این مشکل به وجود چولگی و عدم توازن در توزیع مجموعه داده ای مربوط شده و باعث ایجاد مشکلات برای بسیاری الگوریتم های معمول یادگیری ماشین می شود. در حقیقت، هدف اصلی یادگیری، به دست آوردن الگوریتم های مناسبی است که علاوه بر حفظ عملکرد خود در یادگیری داده های کلاس اکثریت، قابلیت یادگیری از داده های کلاس اقلیت را نیز بهبود ببخشند. مشکل عدم توازن در حالت چندکلاسه بسیار مشهودتر بوده و پیچیدگی آن بیشتر است. راه حل های ارائه شده برای مواجهه با این گونه داده ها، روش های در سطح داده و در سطح الگوریتم می-باشند. در این مطالعه، یک روش افزایش داده نوین به نامmdo ، که بر پایه فاصله mahalanobis یا فاصله آماری بنا شده است، ارائه شده تا یادگیری از مجموعه داده های نامتوازن چندکلاسه را بهبود بخشد. به بیان دیگر، در این روش نمونه های ترکیبی به شکلی ایجاد می شوند که تقریباً ویژگی های نمونه های کلاس اقلیت اصلی را حفظ کنند. در گام بعدی، یک روش تلفیقی از افزایش داده و الگوریتم boosting ارائه شده است. در واقع mdoboost، دو تکنیک افزایش داده mdo و الگوریتم adaboost.m2 را با یکدیگر ترکیب می کند. این روش باعث افزایش کارایی کلاسه بندی، برای معیارهای ارزیابی کارایی mauc، g-mean و recall کلاس اقلیت شده و از سایر روش ها به صورت معناداری بهتر عمل می کند. در آخر نیز یک نوع تغییریافته از الگوریتم feating که توسط ting و همکاران ارائه شده، برای بهبود یادگیری از مجموعه داده های چندکلاسه به کار گرفته شده است. feating یک الگوریتم یادگیری جمعی است که با ساختن مدل های محلی کارایی کلاسه بند ها را به صورت معناداری افزایش می دهد. الگوریتم پیشنهادی که feating adaboost.m1 نام دارد، با کلاسه بندهای پایه svm و c4.5 نتایج بسیار معناداری بر روی مسائل نامتوازن چندکلاسه داشته و از سایر الگوریتم های چندکلاسه ارائه شده در این زمینه بهتر عمل کرده است. واژه های کلیدی: مجموعه داده های نامتوازن چندکلاسه، الگوریتم های یادگیری جمعی، فاصله آماری، الگوریتم boosting، مدل محلی، یادگیری ماشین، داده کاوی.