یحیی فرقانی

نام پژوهشگر: یحیی فرقانی

طبقه بندی مقاوم با احتیاط داده های توام با عدم قطعیت

پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی 1393
یحیی فرقانی هادی صدوقی یزدی

مدل طبقه بندی مقاوم، یک مدل غیراستاندارد برای یادگیری طبقه بند براساس یک مجموعه داده توام با عدم قطعیت است. یک هدف این رساله کاهش زمان آزمون این مدل همراه با کاهش زمان آموزش یا بدون افزایش چشمگیر زمان آموزش است. برای این منظور، نخست دوگان مدل طبقه بندی مقاوم به ازای انواع خاصی از مجموعه های عدم قطعیت تعیین می شود. متاسفانه بردار وزن و بایاس طبقه بند بهینه مستقیما از حل مدل دوگان به دست نمی آید. لذا، در مرحله بعد، به کمک شرایط لازم بهینگی، بردار وزن و بایاس ابرصفحه طبقه بند بهینه براساس جواب بهینه مدل دوگان تعیین می گردد. سپس ثابت می شود که این بردار وزن را می توان به صورت ترکیب خطی داده های آموزشی نوشت و تنک بودن این ترکیب خطی که ارتباط مستقیمی با زمان آزمون دارد تضمین شده است. در ادامه، نشان داده می شود که مدل های طبقه بندی مقاومی که تاکنون معرفی شده اند مدل های طبقه بندی بی احتیاط هستند. جواب بهینه یک مدل طبقه بندی مقاوم بی احتیاط به ازای یک مجموعه داده آموزشی، ممکن است ابرصفحه نباشد که در این صورت امکان طبقه بندی داده ها در مرحله آزمون میسر نخواهد بود. لذا، مدل طبقه بندی مقاوم با احتیاط ارائه می شود و نوع خاصی از آن به یک مدل استاندارد تبدیل می شود. ابرصفحه بودن جواب بهینه مدل طبقه بندی مقاوم با احتیاط تضمین می شود. مشکل مدل های با احتیاط پیشنهادی، زمان آموزش و زمان آزمون زیاد آن است. لذا برای غلبه بر این مشکل، یک مدل طبقه بندی تکه ای پیشنهاد می شود که هر تکه از طبقه بند آموزش یافته توسط این مدل، حاصل اجرای یک مدل طبقه بندی مقاوم با احتیاط به ازای یک زیرمجموعه از داده های آموزشی حاصل از افراز داده های آموزشی است. زمان آموزش و زمان آزمون مدل تکه ای، تقریبا به ترتیب، رابطه عکس و رابطه مستقیمی با تعداد زیرمجموعه داده های حاصل از افراز داده ها دارد. ثابت می شود که درحالت خاص، این مدل تکه ای به یک مدل نزدیکترین همسایه مرتبه صفر یا مرتبه یک تبدیل می شود. اجرای مدل نزدیکترین همسایه مرتبه صفر و مرتبه یک به ازای داده های توام با عدم قطعیت، مستلزم حل مدل های ریاضی است. نشان داده می شود که جواب بهینه این مدل های ریاضی به ازای انواع خاصی از مجموعه های عدم قطعیت، به روش تحلیلی به دست می آید و نیازی به حل عددی مدل های ریاضی یادشده و صرف زمان زیاد برای حل آنها نمی باشد. از مدل های پیشنهادی برای کاهش زمان آموزش، زمان آزمون و یا نرخ خطای طبقه بندی به ازای داده های آموزشی ناقص، و برای کاهش زمان آموزش و یا زمان آزمون طبقه بند به ازای داده های آموزشی کامل استفاده می شود. مدل های پیشنهادی با استفاده از مجموعه داده های واقعی با مدل های مقاوم و نامقاوم مقایسه می گردند. برمبنای نتایج به دست آمده از آزمایش ها باید گفت که استفاده از مدل مقاوم با احتیاط پیشنهادی منجر به بهبود 5 درصدی نرخ خطا نسبت به بهترین مدل از مدل های پیشینه تحت آزمایش می شود اگرچه این بهبود در نرخ خطا در ازای افزایش زمان آموزش و زمان آزمون مدل نسبت به مدل های پیشینه تحت آزمایش می باشد. درضمن، زمان آموزش و زمان آزمون مدل دوگان پیشنهادی به ترتیب 0.27 و 0.19 زمان آموزش و زمان آزمون مدل مقاوم بی احتیاط اولیه ای است که در پیشینه ارائه شده است درحالی که نرخ خطای این دو مدل برابر است.