عبدالرحمان نورزاد

نام پژوهشگر: عبدالرحمان نورزاد

بهبود کیفیت داده ها در کامل بودن داده با استفاده از قوانین وابستگی

thesis وزارت علوم، تحقیقات و فناوری - دانشگاه پیام نور - دانشگاه پیام نور استان تهران - دانشکده فنی 1390
عبدالرحمان نورزاد سهیلا کرباسی

در دنیای امروزی، فعالیت های سازمان ها و شرکت ها بیش از پیش بر اساس داده ها و اطلاعات حاصل از تحلیل آن ها است. بنابراین، کیفیت داده ها مسئله ی بسیار مهمی است، امّا معمولاً در مسائل داده کاوی و کشف دانش از پایگاه داده ها نادیده گرفته می شود و یا توجه زیادی به آن نمی شود. یکی از مهم ترین فاکتورهای کیفیت داده ها کامل بودن داده ها و مسئله ی داده های گمشده است. تاکنون تکنیک ها و روش های بسیار زیادی برای مدیریت بهتر و انتساب مقادیر داده های گمشده پیشنهاد شده اند؛ امّا عیب اصلی چنین تکنیک هایی آن است که فقط به یک تکنیک متکی هستند و چند تکنیک را با هم ترکیب نمی کنند و این دلیلی بر دقت کمتر آن ها در پیش بینی و تعیین مقادیر داده های گمشده است. قانون وابستگی یکی از تکنیک های اصلی داده کاوی است و شاید بتوان آن را مهم ترین شکل از کشف و استخراج الگوهای موضعی در سیستم یادگیری بدون ناظر دانست. در این تحقیق، جهت افزایش دقت انتساب مقادیر گمشده، از رویکرد ترکیبی تکنیک کاوش قانون وابستگی با استفاده از مفهوم تطابق جزئی و مدل تغییر یافته ی تکنیک k-نزدیک ترین همسایگی استفاده می شود. دلیل اصلی استفاده از تکنیک k-نزدیک ترین همسایگی به عنوان مکمل ترکیبی قانون وابستگی برای انتساب مقادیر، مقاوم بودن آن نسبت به نویز و بنابراین قابلیت کارایی آن در مواقعی است که ارتباط بین مشاهدات مجموعه ی داده ها کم می باشد. از نتایج آزمایشگاهی بر روی مجموعه داده های واقعی بر می آید که دقت و کارایی رویکرد انتسابی ترکیبی ارائه شده در مقایسه با رویکردهایی که فقط به یک تکنیک متکی هستند، خیلی بهتر است.