مهرناز مجیدی

نام پژوهشگر: مهرناز مجیدی

یک الگوریتم جدید برای بهبود اکتشاف اقلام تکرار شونده با استفاده از معیارهای شباهت در پایگاه داده های کمی

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه پیام نور - دانشگاه پیام نور استان تهران - دانشکده فناوری اطلاعات 1390
مهرناز مجیدی امیرمسعود رحمانی

پایگاه داده باینری در حقیقت یک حالت خاصی از پایگاه داده کمی است که شامل متغیرهای صریح صفر و یک است، لذا اکتشاف در پایگاه داده های کمی بسیار مشکل تر از اکتشاف در پایگاه داده های باینری بوده و از طرف دیگر قدرت گویای متغیرهای کمی نسبت به متغیرهای باینری، منجر به تولید دانش گران بهاتر نسبت به پایگاه داده های باینری می شود. به عنوان یک مزیت و برتری الگوریتم پیشنهادی index_qfi نسبت به الگوریتم های جسته جو شده در این زمینه، می توان گفت که این الگوریتم بر روی داده های واقعی سازمان ها به خوبی عمل می کند و این با انجام یک بررسی موردی از این الگوریتم پیشنهادی بر روی پایگاه داده های سازمان تأمین اجتماعی، به عنوان یک پایگاه داده واقعی نشان داده می شود. بررسی مزیت الگوریتم index_qfi نسبت به برترین و مشهورترین الگوریتم های موجود در نرم افزارهای داده کاوی مانند weka و clementine انجام شده و پس از اجرای الگوریتم های apriori، predictiveaprior، tertius و filteredassociator از تکنیک استنتاج قانون در نرم افزار weka، مشخص گردید که در نگارش weka 3.4.12 هیچ یک از الگوریتم های مذکور قابلیت اجرا بر روی داده های کمی را ندارند. همچنین الگوریتم های مربوط به تکنیک استنتاج قانون که در نرم افزار spss clementine 12 پیاده سازی شده اند، شامل apriori، gri و carma نیز بر روی این مجموعه داده ها مورد بررسی قرار گرفت و مشخص شد که الگوریتم های مذکور نیز بر روی داده های کمی عمل نمی کنند. جهت مقایسه قوانین تولید شده توسط الگوریتم پیشنهادی در پایگاه داده دارویی سازمان تأمین اجتماعی، تولید قوانین با ایجاد مدل از الگوریتم های درخت های تصمیم شامل chaid، c&r tree و c5.0 به همراه تکنولوژی boosting در نرم افزار spss clementine 12 بر روی این مجموعه داده انجام شد و علی رغم محدودیت این نرم افزار در پذیرش نوع های داده ای و زمان اجرای تقریباً دو برابر نسبت به الگوریتم index_qfi ، اختلاف ناچیز قوانین تولید شده، مشخص گردید.

۱۵ صفحه ی اول