نام پژوهشگر: محمد شکوری بنهنگی
محمد شکوری بنهنگی حمید جزایری
در سال های اخیر، جریان داده ها، توجه بسیاری از محققان را در حوزه های مختلف به خود جلب کرده است. از نظر هر سامانه، جریان داده ها، داده هایی با حجم بسیار بالا می باشند که به صورت افزایشی و با نرخ بالا به آن سامانه وارد می شوند. به دلیل حجم بسیار بالای این نوع داده ها، ذخیره سازی آن ها امری مقرون به صرفه نیست.از مهم ترین چالش های موجود در یادگیری جریان داده ها، تغییر الگوی توزیع داده ها در طول زمان بوده که به آن رانش مفهوم نیز اطلاق می شود. فرآیند رانش مفهوم یک رخداد طبیعی در دنیای واقعی بوده که در طول زمان باعث تغییر در مفهوم داده می شود. بنابراین مدلی که از روی این داده ها در زمان مشخصی ساخته می شود، به مرور زمان دقت خود را از دست داده و دیگر قابل استفاده نیست. از طرفی دیگر، در دنیای امروزی، مسئله طبقه بندی داده های نامتوازن از اهمیت خاصی برخوردار است. توزیع داده ها در داده های نامتوازن به گونه ای است که طبقه ای که از نظر دامنه کاربرد، اهمیت زیادی دارد (طبقه اقلیت)، شامل تعداد نمونه های کمتری نسبت به طبقه ای است که از اهمیت خاصی برخوردار نیست (طبقه اکثریت). زمانی که از روش های معمول داده کاوی برای طبقه بندی داده های نامتوازن استفاده می شود، به علت تعداد بسیار کم نمونه های طبقه اقلیت، بیشتر نمونه های این طبقه، در طبقه اکثریت قرار گرفته و در نتیجه طبقه اقلیت که اهمیت و کاربرد زیادی دارد، دارای دقت پایینی خواهد شد.