نام پژوهشگر: سمانه شریفیان
سمانه شریفیان علیرضا عصاره
با رشد چشم گیر استفاده از اینترنت، حجم اسناد متنی دیجیتال موجود نیز به صورت نمایی افزایش می یابد. از این رو، یافتن اطلاعات مفید از این اسناد متنی در کاربردهای بسیاری اهمیت پیدا کرده است که رده بندی خودکار متون، تکنولوژی کلیدی برای این منظور است. به ازای هر سند متنی، واژهها نقش ویژگی را در رده بندی ایفا می کنند که با توجه به حجم زیاد واژه در زبان طبیعی، این مسأله منجر به ایجاد مشکل ابعاد زیاد ویژگی می شود. بنابراین، در رده بندی متون علاوه بر انتخاب یادگیرنده ی مناسب، انتخاب ویژگی نیز از اهمیت ویژه ای برخوردار است. در این پایان نامه، هدف طراحی یک سیستم رده بندی کارا است که با حداقل ویژگی، کارایی نهایی یادگیرنده را افزایش دهد. در این سیستم یک روش ترکیبی همگن، مبتنی بر زیرمجموعه های متفاوت ویژگی بررسی می شود که باعث بهبود کارایی رده بند پایه در حداقل تعداد ویژگی می-گردد. به منظور تولید زیرمجموعه ها از تکنیک های فیلتری استفاده شده تا زمان ایجاد کامل مدل نسبت به تکنیک های پوششی به حداقل برسد. در مرحله ی یادگیری، سه رده بند ماشین بردارپشتیبان، رگرسیون لجستیک بیزی و درخت تصمیم بررسی شده اند. نتایج به دست آمده بر روی مجموعه داده ی رویترز-21578، بر اساس دو معیار میکرو-f1 و ماکرو-f1، نشان دهنده ی کارایی بالای سیستم ارائه شده نسبت به رده بندهای منفرد و حتی سیستم ترکیبی ناهمگن است. بالاترین کارایی مربوط به سیستم مبتنی بر ماشین بردار پشتیبان و روش ترکیب کمینه، با مقدار 0.97 برای میکرو-f1 و 0.921 برای ماکرو- f1 است.