نام پژوهشگر: مهدیه نجفی تکام
مهدیه نجفی تکام علی امیری
داده های جریانی داده هایی هستند که به مرور زمان و در حجم زیاد تولید می شوند، به طوری که امکان ذخیره نمودن تمام آن ها در یک مکان وجود نداشته و نیاز به پردازش آن در زمان محدود است. امروزه به دلیل گستردگی کاربرد، کاوش داده های جریانی از اهمیت فزاینده ای برخوردار است. در روش های سنتی طبقه بندی فرض می شود که داده ها دارای توزیع ایستا می باشند. در حالی که این فرض برای کاربردهای اخیر که در آن حجم بزرگی از داده ها با سرعت بالا تولید می شوند صحیح نمی باشد. از این رو دیگر الگوریتم های کلاسیک طبقه بندی برای حل چالش های این گونه داد ه ها مناسب نیستند، در واقع ویژگی هایی همچون ورود پیوسته، لزوم طبقه بندی سریع، تکامل داده ها و وقوع تغییر مفهوم منجر به ضرورت ایجاد تکنیک های متفاوتی شده است. در این پایان نامه جهت طبقه بندی داده های جریانی در حضور تغییر مفهوم یک رهیافت جدید مبتنی بر درخت تصمیم ارائه شده است. در الگوریتم پیشنهادی به منظور ساخت درخت های کوچک تر و توجه به پدیده تکامل کلاس ها، از معیار تقسیم مبتنی بر کلاس استفاده شده است. همچنین جهت افزایش سرعت طبقه بندی، از روش تعیین نقطه تقسیم بر مبنای توزیع برچسب کلاس استفاده شده است. استفاده از روش فوق برای نخستین بار در بین صفات اسمی انجام گرفته است. روش پیشنهادی در این پایان نامه در جهت تشخیص تغییر مفهوم استفاده از نمودارهای کنترل کیفی در یادگیرنده های بیزی ساده ی ساخته شده در برگ-های درخت تصمیم می باشد. برای ارزیابی کارایی الگوریتم از داده های آزمایشگاهی و واقعی استفاده شده است و نتایج حاصل از آن نشان می دهد که الگوریتم ارائه شده مزیت هایی از نظر صحت، اندازه درخت و زمان تشخیص تغییر مفهوم نسبت به الگوریتم های موجود دارد.