نام پژوهشگر: جواد حمیدزاده
جواد حمیدزاده رضا منصفی
کمبود داده های آموزشی یکی از مشکلات بارز روش های طبقه بندی غیرپارامتری جهت تخمین پارامترها است. با افزایش ابعاد داده ها نیاز به داده ها به صورت نمایی رشد می نماید. از طرفی با افزایش داده ها 1) نیاز به حافظه بیش تر جهت نگهداری داده ها و 2) افزایش زمان لازم جهت طبقه بندی داده ها احساس می شود. در روش های فوق همواره بین فضای حافظه و نرخ صحت طبقه بندها مصالحه وجود دارد. از طرفی تابع چگالی در نقاط مرزی بین کلاس ها ثابت نیست. تحقیق در زمینه طبقه بندی غیرپارامتری، هم چنان موضوعی چالش بر انگیز است. یکی از روش های معمول طبقه بندی، روش بیز می باشد. در روش بیز ممکن است توزیع ثابت سراسری برای داده ها صادق نبوده و یا این که داده ها در نقاط مختلف از توزیع متفاوتی پیروی نمایند. برای رفع این مشکل می توان از جنبه محلی بودن روش پیشنهادی سود جست. هدف، ارایه مدلی مبتنی بر ویژگی های محلی و سراسری جهت طبقه بندی داده ها به صورت کارآمد است. روش فوق از دو جنبه سراسری و محلی به داده ها اهمیت می دهد، به طوری که جنبه سراسری سعی در کاهش داده های آموزشی (فضای حافظه) و جنبه محلی سعی در غلبه بر عدم تبعیت داده های واقعی از مدل توزیع یکتای سراسری دارد. نوآوری تحقیق حاضر استفاده از ترکیب فاصله ها تا نمونه های آموزشی کلاس ها و ایجاد سطح تصمیم می باشد. دید محلی و سراسری در داده های آموزشی توسط ترکیب این دو لحاظ شده است. از خصوصیات روش پیشنهادی، سادگی طبقه بند است که بدون آموزش و یا با افزودن آموزش مقیاس پذیر به آن می توان طبقه بندی کارآمد ارائه نمود. از اهداف نظری این تحقیق 1) تعیین میزان تعمیم پذیری طبقه بند پیشنهادی و هم چنین 2) تعیین کران بالای امید ریاضی خطا در حالت های مجانبی است. از معیار پیچیدگی rademacher در تعیین کران بالای امید ریاضی خطای طبقه بند پیشنهادی استفاده شده است. برای ارزیابی کارایی روش پیشنهادی، با الگوریتم های مرزهای دانش مانند dwknn، pnnr، lms و kdf-knn بر روی مجموعه داده های استانداردuci مقایسه شده است. در ارزیابی فوق جهت پیاده سازی از محیط های matlab2010 و gams استفاده شده است. از 10-fold cross validation برای تعیین نرخ صحت روش پیشنهادی، استفاده گردیده است. برای سنجش نتایج ارزیابی ها به صورت آماری از روش آزمون فرضیه و آزمون بازه ای با درجه اطمینان 95% کمک گرفته شده است.
وحید هوشمندمقدم جواد حمیدزاده
ماشین بردار پشتیبان روش مطلوبی برای طبقه بندی انواع داده هاست، اما مشکل اساسی این روش کاهش چشم گیر سرعت طبقه بندی آن در ازای افزایش ابعاد مسئله است. در این پایان نامه تابع کرنلی که از چندجمله ای متعامد هرمیت مشتق شده و ترکیب این تابع با سایر کرنل های رایج برای ماشین بردار پشتیبان ارائه شده است. این توابع، علاوه بر کاهش تعداد بردارهای پشتیبان که موجب افزایش سرعت خواهد شد، صحت طبقه بندی داده ها را حفظ می کنند.