نام پژوهشگر: محمود دی پیر
محمود دی پیر محمدهادی صدرالدینی
در مسئله کاوش الگوهای تکراری به دنبال مجموعه هایی هستیم که در تعداد قابل توجهی از تراکنش ها (رکوردها) دیده می شوند. کاوش الگوهای تکراری در جریان های داده کاربرد زیادی در صنعت، تجارت و علوم مختلف دارد. به دلیل سرعت زیاد، بی پایان بودن، حجم بالا و ماهیت تغییر کننده محتوای جریان های داده، یافتن الگوهای تکراری در این نوع داده ها مسئله ای چالش برانگیز است. مدل پنجره لغزنده یکی از مدل های محبوب و پرکاربرد برای حل این مسئله است، که در آن میزان ثابتی از تراکنش های جدید برای کاوش در نظر گرفته می شوند. کاهش میزان حافظه مصرفی، افزایش سرعت کاوش و تعیین اندازه پنجره مهمترین چالش های این مدل اند. ما در این رساله برای غلبه بر این چالش ها الگوریتم ها و تکنیک هایی ارائه داده ایم. نخست دو الگوریتم پیشنهاد داده ایم که در آنها محتویات پنجره به صورت پویایی نگهداری می شود و در صورت درخواست کاربر، مجموعه اقلام تکراری کاوش می شود. سپس الگوریتمی تقریبی ارائه داده ایم که همواره مجموعه اقلام تکراری را نگهداری و به روز رسانی می کند. علاوه بر این الگوریتم جدیدی معرفی کرده ایم که قادر است با استفاده از پنجره های زمانی، سرعت متغییر جریان داده ورودی را در نظر بگیرد. آزمایش های ما نشان می دهند که همگی این الگوریتم ها نسبت به نمونه های مشابه خود در بیشتر موارد، از نظر حافظه و سرعت بهتر عمل می کنند. ما همچنین الگوریتمی ارائه داده ایم که در آن اندازه پنجره لغزنده بر اساس میزان تغییر مفهوم در جریان داده ورودی تنظیم می شود. در نهایت معیار جدیدی را برای تشخیص بهتر میزان تغییر مفهوم ارائه داده ایم.