ارائه راه کاری برای یادگیری از داده های نامتوازن چندکلاسه با استفاده از الگوریتم های یادگیری جمعی

پایان نامه
چکیده

پردازش مجموعه داده های نامتوازن در بسیاری از کاربردهای دنیای واقعی، گسترده شده اند. این مسئله زمانی به وقوع می پیوندد که تعداد نمونه های یک یا چندین کلاس موجود در مجموعه داده، نسبت به تعداد نمونه های سایر کلاس ها کمتر باشند. این مشکل به وجود چولگی و عدم توازن در توزیع مجموعه داده ای مربوط شده و باعث ایجاد مشکلات برای بسیاری الگوریتم های معمول یادگیری ماشین می شود. در حقیقت، هدف اصلی یادگیری، به دست آوردن الگوریتم های مناسبی است که علاوه بر حفظ عملکرد خود در یادگیری داده های کلاس اکثریت، قابلیت یادگیری از داده های کلاس اقلیت را نیز بهبود ببخشند. مشکل عدم توازن در حالت چندکلاسه بسیار مشهودتر بوده و پیچیدگی آن بیشتر است. راه حل های ارائه شده برای مواجهه با این گونه داده ها، روش های در سطح داده و در سطح الگوریتم می-باشند. در این مطالعه، یک روش افزایش داده نوین به نامmdo ، که بر پایه فاصله mahalanobis یا فاصله آماری بنا شده است، ارائه شده تا یادگیری از مجموعه داده های نامتوازن چندکلاسه را بهبود بخشد. به بیان دیگر، در این روش نمونه های ترکیبی به شکلی ایجاد می شوند که تقریباً ویژگی های نمونه های کلاس اقلیت اصلی را حفظ کنند. در گام بعدی، یک روش تلفیقی از افزایش داده و الگوریتم boosting ارائه شده است. در واقع mdoboost، دو تکنیک افزایش داده mdo و الگوریتم adaboost.m2 را با یکدیگر ترکیب می کند. این روش باعث افزایش کارایی کلاسه بندی، برای معیارهای ارزیابی کارایی mauc، g-mean و recall کلاس اقلیت شده و از سایر روش ها به صورت معناداری بهتر عمل می کند. در آخر نیز یک نوع تغییریافته از الگوریتم feating که توسط ting و همکاران ارائه شده، برای بهبود یادگیری از مجموعه داده های چندکلاسه به کار گرفته شده است. feating یک الگوریتم یادگیری جمعی است که با ساختن مدل های محلی کارایی کلاسه بند ها را به صورت معناداری افزایش می دهد. الگوریتم پیشنهادی که feating adaboost.m1 نام دارد، با کلاسه بندهای پایه svm و c4.5 نتایج بسیار معناداری بر روی مسائل نامتوازن چندکلاسه داشته و از سایر الگوریتم های چندکلاسه ارائه شده در این زمینه بهتر عمل کرده است. واژه های کلیدی: مجموعه داده های نامتوازن چندکلاسه، الگوریتم های یادگیری جمعی، فاصله آماری، الگوریتم boosting، مدل محلی، یادگیری ماشین، داده کاوی.

منابع مشابه

بهبود کلاس بندی داده های نامتوازن با استفاده از الگوریتم های یادگیری ماشین

در دنیای امروز مسئله کلاس بندی داده های نا متوازن از اهمیت خاصی برخوردار است . کلاس بندی این داده ها به گونه ای است که ، کلاسی که از نظر دامنه کاربرد اهمیت زیادی دارد (کلاس اقلیت ) شامل تعداد حالات کمتری نسبت به کلاسی است که از اهمیت خاصی برخوردار نیست (کلاس اکثریت). به این مجموعه داده ها داده های نامتوازن می گویند. روش های مختلفی برای کلاس بندی این نوع داده ها ارائه شده است .در کلاس بندی این د...

یادگیری جمعی در رانش مفهوم با وجود داده نامتوازن

در سال های اخیر‏، جریان داده ها‏، توجه بسیاری از محققان را در حوزه های مختلف‎ ‎‎به خود جلب کرده است. از نظر هر سامانه، جریان داده ها، داده هایی با حجم بسیار بالا می باشند که به صورت افزایشی و با نرخ بالا به آن سامانه وارد می شوند. به دلیل حجم بسیار بالای این نوع داده ها، ذخیره سازی آن ها امری مقرون به صرفه نیست.‎‎‎از مهم ترین چالش های موجود در یادگیری جریان داده ها، تغییر الگوی توزیع داده ها در...

ارائه روشی نوین بر پایه الگوریتم های یادگیری چندکرنلی برای طبقه بندی محصولات کشاورزی با استفاده از سری های زمانی چند متغیره

امروزه، تشخیص دقیق نوع محصولات کشاورزی با استفاده از طبقه­بندی سری­های­­ زمانیِ­ حاصل از تصاویر سنجنده­های مختلف سنجش از دوری، رو به افزایش است. دسته­ای از سری­های زمانی که با استفاده از تصاویر سنجنده­های چندطیفی و یا فراطیفی ایجاد می‍شوند، از نوع سری­های زمانی چندمتغیره هستند. علیرغم محتوای بالای اطلاعاتی این نوع از سری­های زمانی، الگوریتم­های طبقه­بندی موجود، به دلیل چهار-­ بعدی بودن این نوع ا...

متن کامل

دسته بندی مجموعه داده های نامتوازن با استفاده از روش های یادگیری ماشین

یکی از مسائل مهم در زمینه داده کاوی، مسأله دسته بندی مجموعه داده های نامتوازن است. اصطلاح «مجموعه داده نامتوازن»، عموما به مجموعه داده ای گفته می شود که تعداد نمونه ها در کلاس های گوناگون، اختلاف بسیاری داشته باشند. در این نوع داده ها، به کلاس هایی که کم ترین تعداد نمونه ها را دارند، کلاس اقلیت گفته می شود. به دلیل این که اکثر الگوریتم های یادگیری، یک دسته بند را با فرض برابر بودن تعداد نمونه ه...

ارائه یکروش جدید فشرده‏سازی تصاویر چهره با استفاده از نمایش تنک سیگنال‏و الگوریتم یادگیری دیکشنریRLS-DLA

رشد فناوری و افزایش تصاعدی اطلاعات نیاز به حجم ذخیره‏سازی بیشتر داده‏های اطلاعاتی گوناگون را افزایش داده است. در این راستا فشرده‏سازی تصویر به‌عنوان ابزاری کارآمد جهت کاهش افزونگی و صرفه‏جویی در حجم ذخیره‏سازی و کاهش پهنای باند انتقالی داده‏های تصویری به کار می‏آید. هنگامی‏که فشرده‏سازی یک دسته یا خانواده از تصاویر، مانند پایگاه داده تصاویر چهره یک سازمان یا مؤسسه یا پایگاه داده MRI یک بیمارستا...

متن کامل

ارائه مدل ترکیبی شبکه های عصبی با بهره گیری از یادگیری جمعی به منظور ارزیابی ریسک اعتباری

Banking is a specific industry that deals with capital and risk for making profit. Credit risk as the most important risk, is an active research domain in financial risk management studies. In this paper a hybrid model for credit risk assessment which applies ensemble learning for credit granting decisions is designed. Combining clustering and classification techniques resulted in system improv...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023