نام پژوهشگر: سیده محدثه طباطبایی فر
سیده محدثه طباطبایی فر عبدالعزیز عبدالهی
با ظهور علم داده کاوی ، روش nmf یا تجزیه نامنفی ماتریس توجهات زیادی را به خود جلب نموده است و با توجه به اهمیت و کاربرد فراوان nmf در بخش های مختلف در این تحقیق برآن شدیم تا از روش تجزیه دودویی ماتریس (bmf) برای حل مسایل nmf در قالب یک الگوریتم استاندارد استفاده نماییم. با وجود توانایی های nmf و سایر روش های خوشه بندی در زمینه های مختلف، هنوز این روش ها دارای نقصان هایی می باشد. یک محدودیت آنها این است که نمونه ها را به کلاس های خاص مبتنی بر ویژگی های کلی اشان تخصیص می دهند،. مشکل دیگر آنها نمی توانند ارتباط و همبستگی بین داده ها را بررسی نمایند، که این نیازمند استفاده از روش هایی بر مبنای خوشه بندی دودویی است، ( روش ارائه شده bmf قابلیت خوشه بندی دودویی را دارد) . مشکل دیگر این روش ها و روش nmf این است که قابلیت تولید ساختارهای آرایه های کوچک را ندارند. بنابراین باید ساختار استانداردی از nmf ارائه می گردید که این قابلیت را داشته باشد، این قابلیت منحصر به فرد در bmf یافت می شود. در این تحقیق به پیاده سازی الگوریتم bmf برروی تولیدات ایران خودرو و بررسی ارتباط متغیر های مستقل با متغیر وابسته از روش ریاضی bmf آزمون فرض در قالب یک فرضیه بررسی شده است. دریافتیم متغیر های مستقل با همدیگر نیز ارتباط دارند ، رابطه ای که بین متغیر ها می باشد از نوع رابطه خطی نمی باشد بلکه از نوع رابطه غیر خطی یا منحنی می باشد. اجرای الگوریتم bmf بر روی 14محصول ایران خودرو مبتنی بر شاخص های ذکرشده ، 5 خوشه نهایی را داد در هر یک از این خوشه ها رفتار تولید ،رفتار متغیرهای مستقل در زمان مشخص ( داده ها از جنس سری زمانی اند ) قوی ترین و ضعیف ترین تولید ، رابطه تولید و متغیر ها مشخص شده .که این قابلیت تفسیر پذیری bmf و تولید خوشه های با پراکندگی پایین است . در نهایت با اجرای روش های خوشه بندی som ,samba ,hcl ,bimax ,isa ,nmf,opsm, kmean,cc بر روی داده های تولیدی ایران خودرو و مقایسه روش ها براساس شاخص معتبرnmi دریافتیم خوشه بندی bmf تفسیرپذیرتر به دلیل همبستگی درون خوشه ای بیشتر ، خطای کمتر و خاصیت دودویی bmf ویزگی اساسی ماتریس اصلی را حفظ می کند . به عنوان نتایج نهایی بدست آمده از bmf می توان بیان نمود : نتایج bmf بهتر ، دارای پراکندگی پایین تر ، و ارتباط و همبستگی دوتایی بین داده ها و نمونه ها به طور دقیق قابل شناسایی است . روش حدآستانه دارای خطای کمتری بوده و حدآستانه در ماتریس های پراکنده، روش پنالتی در ماتریس های متراکم بهتر عمل کرده اند. همچنین ساختار الگوریتم bmf به گونه ای است که توانسته اریب بین ماتریس وزن و پایه را از بین ببرد و تفسیر پذیری خوشه ها را بهتر و خطای کمتری نسبت به سایر روش ها را دارد . نتایج آزمایشات برروی bmf نشان دهنده این است که الگوریتم bmf بیشتر شبیهه به یافتن نقطه بهینه است .