نام پژوهشگر: فاطمه نیکومرام

تجزیه ی ماتریس برای داده کاوی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز 1390
  فاطمه نیکومرام   اشکان سامی

تجزیه ی ماتریس دارای کاربردهای زیادی نظیر: کاهش بعد، تشخیص الگو، آنالیز بیان ژن و ... می باشد. از آنجا که دربسیاری از کاربردها مانند تشخیص چهره، عناصر منفی وجود و معنا ندارند، تجزیه غیرمنفی و باینری ماتریس پیشنهاد داده شده است. در تجزیه ماتریس باینری، همه ی عناصر باینری هستند و جمع و ضرب نیز در فضای باینری تعریف می شوند. از بین انواع تجزیه باینری، تجزیه ستونی باینری ماتریس که توسط میئتنین ارائه شده است، دارای قابلیت تفسیر بالایی است. بنابراین، این روش، بهترین روش جهت استخراج قوانین است. در این روش، ماتریس ورودی به دو ماتریس c و x که یکی شامل k ستون و دیگری شامل k ردیف است، تجزیه می شود، به طوری که k تعداد خوشه ها و یا دسته ها می باشد. k ستون ماتریس اول، c، زیرمجموعه ای از ستون های ماتریس ورودی می باشند. بنابراین قابلیت تفسیر بالا است. دو چالش در این نوع تجزیه وجود دارد: 1) الگوریتم های پیشنهاد شده برای این روش، برای رسیدن به خطای کمتر از تعداد تکرار زیاد رنج می برند و حتی امکان دارد الگوریتم، بعد از تکرارهای بیشتر به جواب بدتر برسد. 2) از قابلیت تفسیر بالای این تجزیه در کاربردی استفاده نشده است. این پایان نامه دو هدف دارد: 1) بهبود الگوریتم های موجود. 2) ارائه کاربرد. در زمینه ی بهبود الگوریتم، دو روش برای بهبود در الگوریتم bcx ارائه شده است. یک روش، جهت بهبود در یافتن ماتریس c و یک بهبود در ماتریس x به وجود آمده، پیشنهاد شده است، که اثبات ریاضی برای این بهبود نیز ارائه شده است. انتخاب ستون های ماتریس c طوری بازبینی شده است که منجر به خطای کمتر می شوند و بهبود در ماتریس x، از تعریف ضرب ماتریس الهام گرفته است. نتایج حاصل از آزمایشات دقت بالای بهبود را در kهای بالا نشان می دهد. به طوری که برای kهای بالا، درصد بهبود حدود 50% به دست آمده است. در زمینه ی کاربرد، کاربرد استخراج اتوماتیک کلمات کلیدی موردتوجه قرار گرفته است. کلمات کلیدی در بسیاری موارد به عنوان خلاصه ی مفیدی از متن استفاده می شوند. انتساب دستی این کلمات کار بسیار وقت گیری است. در عمل، کلمات کلیدی، کلماتی هستند که پوشش خوبی از متن دارند. الگوریتمی بر اساس تجزیه bcx برای استخراج بهترین کلمات متن ارائه شده است که هر چه خطای تجزیه کمتر باشد، پوشش متن بهتر است. نتایج نشان می دهد که این الگوریتم، الگوریتمی کارا و ساده است.