نام پژوهشگر: محمد حامد موحدی

پالایش داده های پرت برای یافتن اطلاعات مفید در مجموعه داده های غیر گسترش یافته
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و الکترونیک 1393
  محمد حامد موحدی   علی زینل همدانی

کشف داده پرت مرحله مهمی در پیش پردازش داده ها است و نتایج داده کاوی وابسته به انجام صحیح آن می باشد. در کشف داده پرت، داده هایی که با سایر داده ها تفاوت زیادی دارند و رفتار داده های معمولی را نشان نمی دهند، شناسایی شده و حذف می گردند. مراحل بعدی داده کاوی تنها بر روی داده های معمولی انجام می شوند. چنانچه داده های پرت حذف نشوند و همراه با داده های معمولی پردازش شوند، ممکن است مدل نا صحیحی ایجاد کنند و مدل نهایی بیانگر رفتار معمول نمونه ها نباشد. حذف این داده ها در حالی صورت می-گیرد که در برخی موارد تعداد داده های پرت زیاد است یا این داده ها دارای ارزش و مفهوم خاصی هستند. در این تحقیق به بررسی استفاده از داده های پرت در چنین مواردی پرداخته خواهد شد تا مشخص شود که آیا پردازش جداگانه این داده ها می تواند سودمند باشد یا خیر. به این منظور روش های داده کاوی به طور جداگانه بر روی داده های معمولی و پرت اعمال می شوند تا مدل یا مدل هایی برای بیان رفتار هر گروه حاصل شود. برای ارزیابی نتایج از دقت استفاده می شود و دقت روش پیشنهادی، که پردازش جداگانه داده-های معمولی و پرت است با روش معمول که همان حذف داده های پرت است مقایسه می گردد. در این راستا از چهار مجموعه داده استاندارد که معمولاً در کشف داده پرت استفاده می شوند یعنی german credit، wdbc، pima indian diabetes و bcw یک مجموعه داده ساختگی بهره برده می شود. بر طبق پیاده سازی های انجام شده پردازش این داده ها حداقل به روشی که در این تحقیق مورد استفاده قرار گرفته است، به عنوان یک روش معمول، مناسب نیست.