نام پژوهشگر: سهیلا بارچی نژاد
سهیلا بارچی نژاد مهدی افتخاری
مساله انتخاب ویژگی، یکی از مسائلی است که در مبحث یادگیری ماشین و همچنین شناسائی آماری الگو مطرح است. در بعضی از زمینه ها هزاران ویژگی برای اندازه گیری وجود دارندکه یا همه آن ها به خروجی مسئله مربوط نیستند و یا دارای افزونگی اند. این ویژگی ها گاهی باعث کاهش دقت روش های یادگیری نیز می شوند. علاوه بر این سروکار داشتن با تعداد زیادی ویژگی بسیار هزینه بر است، بنابراین شناسایی ویژگی هایی که وابستگی زیادی با خروجی دارند مهم است. انتخاب ویژگی، ویژگی هایی از مجموعه داده ها که برای پیشگویی خروجی موثرتر هستند را انتخاب می کند و مفهوم موجود در ویژگی ها را بعد از انتخاب ویژگی حفظ می کند و معمولأ زمانی استفاده می شود که مجموعه داده ها شامل تعداد زیادی ویژگی باشند، بطوریکه پردازش آن ها مشکل یا غیر ممکن باشد. تکنیک انتخاب ویژگی در مجموعه داده های کوچک و متوسط نیز بکار می رود تا ویژگی های غنی تر(دارای اطلاعات بیشتر) را برای استفاده های بعدی انتخاب کند. به وسیله حذف ویژگی های اضافی از مجموعه داده ها کارائی مدل های یادگیری به طور چشم گیری افزایش پیدا می-کند. هدف از انتخاب ویژگی پیدا کردن کوچک ترین زیرمجموعه از ویژگی های ورودی با بیشترین خاصیت پیش گویانگی است. مسأله انتخاب یک زیرمجموعه ی بهینه از یک مجموعه، دارای پیچیدگی زمانی نمایی است. روش های کلاسیک اکثراً در پیدا کردن راه حل های بهینه ناموفق هستند. از طرف دیگر، جستجوی کامل برای پیدا کردن راه حل های بهینه حتی در مجموعه داده-هایی که تعداد ویژگی ها زیاد نیستند، غیر ممکن است. برای حل این مشکل، ما در این پایان نامه از الگوریتم ژنتیک (جستجوی تصادفی) برای انتخاب ویژگی استفاده کرده ایم. یکی از روش های انتخاب ویژگی، رتبه بندی آنهاست، تا ویژگی هایی انتخاب شوند که دارای رتبه ی بالا هستند. در این پایان نامه ابتدا معیار جدیدی بر مبنای خوشه بندی* تفاضلی برای حل مسأله انتخاب ویژگی ارائه شده است. در ادامه با استفاده از این معیار و معیار وابستگی پیرسن روش های فیلتر و فراگیر جدیدی ارائه می شود. برای نشان دادن کارآمدی روش های پیشنهادی و مقایسه آن ها با روش های دیگر، در این پایان نامه چندین مجموعه داده انتخاب شده و روش های مذکور بر روی آن ها پیاده سازی شده اند. از نتایج بدست آمده از پیاده سازی روش های پیشنهادی و مقایسه این روش ها با چندین روش دیگر انتخاب ویژگی، به این نتیجه رسیدیم که روش های پیشنهاد شده کارائی خیلی بهتری از نظر تعداد ویژگی های انتخابی و دقت طبقه بندی دارند.