نام پژوهشگر: لیلا جعفر تفرشی
لیلا جعفر تفرشی فرزین یغمایی
داده کاوی فرآیند انتخاب، اکتشاف و مدل کردن مقدار زیاد و متنوعی از داده ها برای کشف قوانین و ارتباط بین آنها به منظور استخراج نتایج مفید برای صاحبان پایگاه داده ها است. دانش حاصل از داده کاوی موضوع جدیدی است که اخیراً در پایگاه داده ها مطرح شده است. این دانش، از اطلاعات شخصی افراد استخراج می شود. در سال های اخیر روش های داده کاوی با معضل مهم محافظت از داده های حساس، از جمله داده های بانکی، پزشکی و سایر اطلاعات محرمانه ی افراد، مواجه شده اند؛ از این رو شاخه ی جدیدی در داده کاوی به نام حفظ محرمانگی داده ها در داده کاوی پا به عرصه نهاد. هدف تحقیقات در این زمینه توسعه ی روشی است که بتواند بدون انتشار داده های محرمانه، داده کاوی را انجام داده و نتایج معتبری ارائه دهد. روش های متنوعی برای این منظور معرفی شده اند که هدف این تحقیق بررسی آنها و معرفی روشی بهبود یافته است تا بتوان با حفظ بیشتر محرمانگی، کارآیی و سودمندی روش های پیشین را افزایش داد. در این پایان نامه روی مسئله ی حفظ محرمانگی داده ها در طبقه بندی و خوشه بندی تمرکز می کنیم. ابتدا به ارائه ی روش های موجود حفظ محرمانگی در داده کاوی پرداخته، نقاط ضعف و قوت آنها را بررسی کرده و با یکدیگر مقایسه می کنیم و سپس دو روش برای حفظ محرمانگی داده ها در داده کاوی ارائه می دهیم که روش اول از منطق فازی کمک گرفته و روش دوم با ترکیب منطق فازی و دوران تصادفی از محرمانگی داده ها محافظت می کند. در ادامه ی کار با کمک روش های داده کاوی درخت تصمیم c4.5، k نزدیکترین همسایه و امید ریاضی بیشینه سازی به ارزیابی این دو روش می پردازیم. در انتها دو روش ارائه شده را با روش هایی از جمله دوران تصادفی، افکنش تصادفی و خلاصه سازی داده ها مقایسه کرده و پیشنهاداتی برای مطالعات آتی ارائه می دهیم.