نام پژوهشگر: حمید رضا غفاری

طبقه بند چندکلاسی مقیاس پذیرمبتنی بر پیچیدگی داده ها
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
  حمید رضا غفاری   هادی صدوقی یزدی

در این رساله، برای طراحی طبقه بند چندکلاسی تعمیم پذیر مقیاس پذیر، بُعد vc در نظر گرفته شده است. این بُعد، ظرفیت مجموعه ای از توابع طبقه بندی را اندازه گیری می کند و در الگوریتم های یادگیری، خطای تعمیم پذیری وابسته به آن می باشد. وجود گستردگی در استفاده از طبقه بند چندکلاسی در کاربردهای جهان حقیقی از یک سو و تعداد زیاد کلاس های این گونه کاربردها از سوی دیگر، سبب شده تا نتوان از طبقه بند ماشین تکی استفاده نمود، زیرا که در طبقه بند ماشین فوق، تمام ابرصفحه های بین کلاس ها با هم به دست می آید. در این گونه روش ها با بهینه سازی مسأله ای بسیار بزرگ و پیچیده مواجهیم که حل آن بسیار زمان بر و بعضاً غیرممکن است. بنابراین، برای حل این گونه از مسائل، از روش های تجزیه استفاده می شود. در این رساله، با بهره گرفتن از مفهوم پیچیدگی داده ها (به عنوان یک عنصر کم تر استفاده شده در تحقیقات گذشته طبقه بند چندکلاسی)، مسأله دنبال شده است تا تعمیم پذیری طبقه-بندهای چندکلاسی مبتنی بر روش های تجزیه بهبود یابد. پیچیدگی داده ها جهت خوشه بندی کلاس ها و تعیین ساختاری مناسب برای طبقه بند بکار رفته، به نحوی که مقدار هزینه برای تابع هدف حداقل و در نتیجه خطای تعمیم پذیری کم شود. بعد از تعیین ساختار مناسب برای طبقه بند (با توجه به ویژگی های مناسب)، صرفاً طبقه بندهای باینری ماشین بردار پشتیبان جهت اخذ نتیجه استفاده گردیده است. در انتخاب روش های طبقه بندی مبتنی بر تجزیه نیز باید توجه نمود که در روش های تجزیه: 1- یکی در برابر دیگری، 2-یکی در برابر بقیه، با مشکلاتی مواجه ایم، در مورد اول، تعداد طبقه بند پایه با تعداد کلاس رشد فزاینده ای دارد و در روش دوم با مشکل عدم موازنه داده ها مواجه ایم. استراتژی تجزیه ای که مشکلات فوق را تا حدی حل می نماید، استراتژی درختی است، اما کماکان مسأله مهم در این جا، چگونگی ساخت درخت است. در استراتژی درختی، روش ماشین بردار پشتیبان با روش درختی ترکیب شده، بدین معنی که حل مسأله از دو قسمت یادگیری بدون ناظر و یادگیری باناظر تشکیل می شود. بخش اول که یادگیری بدون ناظر است، درختی سلسله مراتبی از کلاس ها ساخته می شود که هر کدام از کلاس ها در برگ های درخت قرار می گیرد، در بخش دوم، برای هر گره، طبقه بندی باینری آموزش داده می شود. نهایتاً، دو قسمت مذکور با هم، ساختار طبقه بند چندکلاسی را تشکیل می دهد. در این رساله، تمرکز اصلی بر روی بخش بدون ناظر (بهینه سازی ساختار طبقه بند مورد نیاز برای طبقه بند چندکلاسی) می باشد. بنابراین آنچه که در این رساله دنبال خواهد شد، ارائه روشی است که کاربرد آن در بعضی از روش های متعارف، باعث بهبود کارایی می شود. برای بیان ایده، ابتدا ارتباط بین پیچیدگی داده ها، پیچیدگی مدل و بُعد fat-shattering را مورد بررسی قرار می دهیم، سپس سنجه های مختلف موجود برای اندازه گیری پیچیدگی داده ها بررسی می شوند. در این راستا بدنبال کمیتی متناسب با نوع طبقه بند به کار برده شده هستیم. در ادامه، به کمک سنجه مشخص شده برای پیچیدگی داده ها، ساختار مناسبی را برای طبقه بند تعیین و در انتها ثابت می کنیم که طبقه بند پیشنهادشده دارای حداقل بُعد fat-shattering و در نتیجه دارای تعمیم پذیری خوبی است. در انتها، از مجموعه داده های استانداردی نظیر پایگاه های داده ا ی uci، satlog و هم چنین از مجموعه داده ی ایستگاه هوایی برای ارزیابی روش ها استفاده شده است، نتایج حاصل از آزمایش ها، برتری روش پیشنهادی را بر سایر روش ها بیان می کند.