نام پژوهشگر: مصطفی سبزهکار
مصطفی سبزه کار محمود نقیب زاده
بدون شک نیاز عصر امروز بشر، با توجه به غوطهور شدن در حجم وسیعی از دادههای پیرامونش، استفاده از ابزارهایی برای تحلیل این دادهها و دستیابی به دانش نهفتهی درون آنهاست. طبقهبندی دادهها یکی از ابزارهای مهم در استخراج دانش از دادههاست. یکی از مشکلاتی که در هر روش طبقهبندی دادهها پیش روی داریم، بدست آوردن بهترین مدل است. اهمیت این قضیه وقتی آشکار میشود که بدانیم مجموعه دادههایی که برای آموزش این مدل استفاده شده است، دارای دادههای پرت، نویزی و یا به طور کلی کم اهمیت هم بوده است. در نتیجه مدل بدست آمده نمیتواند نتایج خوبی را در تشخیص دادههای جدید گزارش نماید. بنابراین کلیهی برنامههای دادهکاوی از جمله طبقهبندی، بخش عمدهای از کار خود را روی تحلیل و کمکردن تأثیر این دادهها صرف میکنند. یکی از محبوبترین روشهای طبقهبندی دادهها ماشینهای بردار پشتیبان (svm) هستند. ابرسطح جداکننده ای که توسط این روش بدست میآید فقط به بخش کوچکی از دادههای آموزش بستگی دارد. در نتیجه svm نسبت به دادههای نویزی و پرت بسیار حساس است. از طرف دیگر اهمیت تمام دادههایی که در آموزش شرکت میکنند، یکسان در نظر گرفته میشود. هدف اصلی در این تحقیق، اهمیت دادن به نمونههای یادگیری با استفاده از قیود موجود در مسألهی بهینهسازی svm است. بدین ترتیب مشکل دیگر در آموزش svm که همواره بین انتخاب یک حاشیه بزرگتر و کمکردن خطای در آموزش سیستم یک تضاد وجود دارد، به نحوی تبدیل به یک هدف شده و مرتفع میگردد و زیادتر کردن آگاهانهی خطا تأثیر منفی بر مسألهی بیشینه کردن ناحیهی بین دو کلاس نخواهد داشت. ساختار svm در روش پیشنهادی به نحوی تغییر میکند که قادر است در مقابل دادههای نویزی و پرت مقاومتر باشد. از مزایای دیگر روش ارائه شده در نظر گرفتن تحمل و همچنین درجهی قطعیت برای دادههاست که تاکنون در هیچکدام از توسعههایی که برای svm داده شده، مطرح نگردیده است. آزمایشهای مختلف با استفاده از مجموعه دادههای متعدد کارایی این الگوریتم برای مسائل مختلف یک کلاسی، دو کلاسی و چند کلاسی را اثبات کرد.