نام پژوهشگر: نوشین طاهری چترودی
نوشین طاهری چترودی حسین نظام آبادی پور
انتخاب ویژگی نقش مهمی در دنیای یادگیری ماشین و به خصوص مسائل طبقه بندی داده، بازی می کند. این فرآیند، مسأله کاهش بعد داده از طریق شناسایی زیرمجموعه ویژگی هایی است که بیشترین ضرورت را در طبقه بندی داده دارند. امروزه داده ها هم از نظر تعداد نمونه ها و هم از نظر تعداد ویژگی ها رشد قابل توجهی داشته اند. مسائل انتخاب ویژگی در داده های با بعد بالا، بسیار پیچیده تر از مسائل معمولی طبقه بندی الگو است. این داده ها شامل میزان زیادی اطلاعات نامرتبط و افزونه هستند که باعث گیج و سردرگم شدن الگوریتم یادگیری و در نتیجه کاهش عملکرد آن می-شوند. برای جلوگیری از این مسأله که به "نفرین بعد" نیز معروف است، انتخاب ویژگی بسیار حائز اهمیت است. در این پایان نامه، یک روش ترکیبی برای انتخاب ویژگی داده های با بعد بالا ارائه شده است. الگوریتم پیشنهادی، ابتدا با بکارگیری یک روش انتخاب ویژگی خردجمعی که ترکیبی از چند روش فیلتری است، بعد داده را کاهش می دهد. سپس، به کمک الگوریتم فرا-ابتکاری جستجوی گرانشی باینری بهبودیافته زیرمجموعه ای از ویژگی های برجسته انتخاب می شوند. همچنین، روش های مختلفی برای تجمیع ویژگی ها در انتخاب ویژگی خرد جمعی معرفی شده است. عملکرد روش های مختلف تجمیع ویژگی ها و طبقه بند های مختلف در روش پیشنهادی، روی 21 مجموعه داده میکروآرایه ای استاندارد بررسی شده است. نتایج حاصل از روش پیشنهادی نیز با چند روش انتخاب ویژگی داده های با بعد بالا مقایسه شده است. نتایج بدست آمده نشان دهنده کارایی لازم روش پیشنهادی در انتخاب ویژگی داده های با بعد بالا است.