نام پژوهشگر: محمدهای صدرالدینی
آرش مزیدی محمدهای صدرالدینی
افزایش روزافزون داده ها در پایگاه داده ها، نیاز به روش های بهینه برای آنالیز داده ها را افزایش داده است. بیشتر مطالعات، بر روی پیدا کردن الگوهای کاربردی در پایگاه داده ها متمرکز شده اند. این مطالعات برای کاربردهای تشخیص فعالیت مجرمین در تجارت الکترونیک، تشخیص اتفاقات نادر و تشخیص انحرافات نسبت به کاربردهای موارد دیگر بیشتر و مفیدتر واقع شده است. اخیرا مطالعاتی بر روی کشف داده های پرت در پایگاه داده ها انجام شده است. الگوریتم های زیادی برای تشخیص و کشف داده های پرت ارائه شده است، اما اکثر این الگوریتم ها بر روی داده های ایستا کارایی دارند. داده های جریانی، داده هایی به صورت پیوسته و نامحدود هستند که در طول زمان، تغییر توزیع را خواهند داشت. این تغییر توزیع، باعث می شود تا الگوریتم های موجود برای داده های ایستا، برای داده های جریانی غیرقابل استفاده شوند و کارایی چندانی نداشته باشند. از طرفی دیگر، این تغییر توزیع، باعث افزایش نرخ مثبت-کاذب در الگوریتم های موجود می شود. در این پایان نامه، الگوریتمی را ارائه خواهیم داد تا با استفاده از روش تقسیم جریان به قطعه های مساوی و محاسبه ضریب ناهنجاری محلی برای داده ها و استفاده از لیستی برای داده های پرت کاندید، بتوانیم داده های پرت و الگوهای نامتعارف را شناسایی کرده و نرخ مثبت-کاذب را کاهش داده و از طرف دیگر، دقت الگوریتم و نرخ تشخیص را افزایش دهیم. نتایج بدست آمده از اجرای الگوریتم پیشنهادی بر روی مجموعه داده های مصنوعی و حقیقی، نشان می-دهد که الگوریتم پیشنهادی باعث کاهش قابل توجه نرخ مثبت-کاذب و افزایش دقت و نرخ تشخیص شده است. همچنین در مقایسه با الگوریتم ضریب ناهنجاری محلی افزایشی، به دلیل عدم به روز رسانی ضریب ناهنجاری داده ها در هنگام ورود و خروج داده ها به سیستم، باعث افزایش سرعت سیستم شده است.