نام پژوهشگر: محمدسعید زایری
محمدسعید زایری جمال شهرابی
پیشرفت های اخیر علوم مختلف در زمینه کسب، ذخیره و نگهداری داده ها منجر به افزایش بسیار زیادی در حجم و ابعاد پایگاه داده ها شده است. همیشه در این نوع پایگاه داده ها، اطلاعاتی جهت استخراج و استفاده وجود دارد. صنایع پزشکی، جزء پنج صنعتی می باشد که با حجم زیاد داده و اطلاعات درگیر هستند. اطلاعات، داده ها و دانش ذخیره شده در این صنایع هر روز بسیار افزایش می یابد. داده کاوی یک رشته علمی جدید در زمینه بازیابی و استخراج اطلاعات است که اقدام به استخراج دانش و ویژگی های مفید و جالب از مجموعه پایـگاه داده ها می کند. به عبارت دیـگر داده کاوی به عنوان یک قدم از مراحــل استـخراج دانش از پایگاه داده ها مورد استـفاده قرار می گیرد و به رشته های آمار، machine learning، شناسایی الگوها و دسته بندی مشاهدات متصل شده است. امروزه از دیابت به عنوان سومین دلیل مرگ و میر دنیا یاد می کنند. در هر 20 ثانیه یک نفر به علت ابتلاء به دیابت جان خود را از دست می دهد. به همین دلیل کشف و استخراج الگوها و ساختار نهان در بین معیارها و عوامل موثر بر دیابت در بین بیماران دیابتی امری ضروری و حیاتی است. به این منظور این پایان نامه یک متدولوژی جدید که شامل دو قدم کلی است را معرفی می کند. در اولین قدم با بررسی سه الگوریتم random projection, non - negative matrix factorization و pca اقدام به ارزیابی آنها با پیاده-سازی آنها بر روی سه دسته داده مجازی با ساختار خطی، غیرخطی و متنی می کنند. نتایج بدست آمده نشان می دهد که pca در مقایسه با دو الگوریتم دیگر توانایی بهتری در ارایه مجدد داده ها و کاهش ابعاد دارد. در قدم دوم این متدولوژی در ابتدا با استفاده از تکنیک آنالیز فاکتور اقدام به استخراج الگو و ساختار در بین متغیرهای تاثیرگذار بر مسیله می کنند سپس با پیاده-سازی تکنیک pca به عنوان یک تکنیک کاهش ابعاد ویژگی های اصلی مسیله انتخاب و کاهش ابعاد انجام می شود. و در نهایت این متدولوژی با اجرای تکنیک آنالیز خوشه بندی اقدام به کلاسه بندی بیماران می کنند. نتایج بدست آمده نشان می دهد که با کمک این متدولوژی پس از کشف الگوها و روابط بین متغیر ها تنها با لحاظ کردن 9 متغیر می توان مسیله را مورد بررسی قرار داده و بیماران را در جهت تعیین میزان انسولین مورد نیاز دسته بندی نمود.