نام پژوهشگر: نیره قهرمان

برچسب گذاری نیمه خودکار مجموعه ی آموزش در دسته بندی متن
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده فنی 1390
  نیره قهرمان   احمد براانی دستجردی

وب شامل کتابخانه های دیجیتال و بیلیون ها سند متنی است. جستجوی آسان و سریع در این مجموعه ی بزرگ برای کاربران و محققان پراهمیت است. دستیابی به این هدف نیازمند سازمان دهی اسناد می باشد. با توجه به این-که دسته بندی اسناد با دست یا قوانین کاری سخت و پرزحمت است، نیاز به سیستم های دسته بندی خودکار به شدت احساس می شود. سیستم های خودکار دسته بندی متون نیازمند مجموعه ی آموزش مناسب و بزرگ هستند. غالبا برای تهیه ی این مجموعه، تعداد زیادی از اسناد بدون برچسب، توسط افراد خبره به صورت دستی برچسب گذاری می شوند. برچسب گذاری دستی اسناد عملی پرزحمت و زمان بر است. علاوه بر این در برچسب-گذاری دستی به دلیل خستگی و بی دقتی انسان ها امکان اشتباه وجود دارد. در این تحقیق ساخت نیمه خودکار مجموعه ی آموزش انجام گرفته است، به طوری که درصد کمی از اسناد این مجموعه ی بزرگ به صورت دستی برچسب گذاری می شوند و برچسب گذاری درصد باقیمانده به صورت خودکار انجام می پذیرد. با مطالعات قبلی این نتیجه حاصل شد که معمول ترین روش برای دسته بندی متون استفاده از ماشین بردار پشتیبان است، به همین دلیل در این تحقیق راه حلی براساس یک سیستم ارزیابی svm توصیف شده است. وظیفه ی این سیستم آماده سازی مجموعه ی آموزش برای دسته بندی متون می باشد. روش انتخاب شده استفاده از الگوریتم های co-training و ترکیب آن با معیار سنجش مشابهت برای برچسب-گذاری دقیق تر می باشد. نتایج حاصل نشان می دهد که تنها با برچسب گذاری 10 درصد از مجموعه ی آموزش، اسناد باقیمانده را می توان با دقت 98 درصد به صورت خودکار برچسب گذاری کرد. شایان ذکر است که این کاهش دقت در مجموعه داده های استاندارد رخ می دهد و در مجموعه های کاربردی ،کاهش دقت در مقابل کاهش دقت ناشی از خستگی و بی-دقتی انسان ها در برچسب گذاری مجموعه های بزرگ ، ناچیز است.