نام پژوهشگر: مریم باحجب ایمانی
مریم باحجب ایمانی محمد رضا کیوان پور
محبوبیت وب و حجم زیاد مستندات متنیِ الکترونیکی موجود، باعث افزایش نیاز به جستجو برای استخراج دانش نهان از مجموعه ی مستندات متنی شده است. بنابراین، امروزه مسئله ی متن کاوی در زمینه های متعددی از جمله پزشکی، زیست-فناوری، اقتصاد و فناوری اطلاعات مورد توجه قرار گرفته است. متن کاوی قادر است پردازش هایی مانند طبقه بندی، خوشه بندی، خلاصه سازی و استخراج اطلاعات متنی را پوشش دهد. طبقه بندی متون به شیوه ا ی مناسب با میزان خطای کم و تعمیم پذیری بالا یکی از موضوعات مهم در حوزه ی متن کاوی است. یکی از مهم ترین چالش ها در طبقه بندی متون، حجم زیاد مشخصه های مستخرج از اطلاعات متنی می باشد. یادگیری از داده هایی که مشخصه های زیادی دارند نه تنها باعث افزایش هزینه های محاسباتی می شود، بلکه کارایی یادگیری را نیز کاهش می دهد. بر این اساس استفاده از روش های مناسب انتخاب مشخصه از اهمیت ویژه ای در این حوزه برخوردار می باشد. در این راستا، در پژوهش انجام شده یک روش انتخاب مشخصه های توکار برای حل این چالش پیشنهاد شده است که نتایج بهتری را نسبت به روش های رایج می دهد. بهره گیری از روش های یادگیری با نظارت، که از مثال های آموزشی بر چسب دار استفاده می کنند، به عنوان یکی از رویکردهای سنتی جهت طبقه بندی متون مطرح است. برای انجام این نوع یادگیری با دقتی منطقی، وجود تعداد کافی از مثال های آموزشی برچسب دار ضروری است. بدین منظور به فردی خبره نیاز است که به هر سند برچسبی نسبت دهد؛ که این کار فرآیندی خسته کننده، زمانبر و پر هزینه می باشد. بنابراین تأمین تعداد کافی از مثال های آموزشی برچسب دار عملی غیر ممکن است. در مقابل، اسناد بدون برچسب اغلب در حجم زیاد قابل دسترس هستند. بنابراین، رویکرد موثر و عملی دیگر در یادگیری استفاده از اسناد برچسب دار به همراه اسناد بدون برچسب در زمان یادگیری می باشد، این ایده مبنای اصلی رویکرد یادگیری نیمه نظارتی را تشکیل می دهد. در این حالت، الگوریتم های یادگیری می توانند از داده های بدون برچسب استفاده کنند، که اغلب منتهی به تابع طبقه بندی دقیق تری می شود. در این پژوهش، روشی مبتنی بر یادگیری تجمیعی و رویکرد خودآموزی برای انجام یادگیری نیمه نظارتی پیشنهاد شده است که بر اساس آزمون های انجام شده موجب بهبود کارایی یادگیری نیمه نظارتی در زمینه ی طبقه بندی متون شده است.