نام پژوهشگر: پروین رستگار
پروین رستگار احمد براآنی دستجردی
فرض مهمی که الگوریتم های داده کاوی و یادگیری ماشین دنبال می کنند این است که، داده های آموزشی و آزمایشی از یک فضای ویژگی و با توزیع یکسانی برداشته می شوند. معمولا در دنیای واقعی این فرضیات در نظر گرفته نمی شود. زمانی که نحوه توزیع داده ها متفاوت باشد، می بایست تمامی مد ل های آماری با کمک داده های آموزشی جدید از ابتدا ساخته شوند که این کار بسیار هزینه بر خواهد بود. در چنین حالت هایی است که نیاز به استفاده از انتقال دانش یا یادگیری انتقالی بوجود می آید. بنابراین یادگیری انتقالی، توانایی یک سیستم برای استخراج و اعمال دانش از کارهای قبلی به کار جدید می باشد. یکی از چالش-های مهمی که اعتماد استفاده از یادگیری انتقالی را در بین کاربران از بین می برد، وقوع انتقال منفی است. انتقال منفی هنگامی رخ می دهد که منبع و مقصد هیچ ارتباطی با یکدیگر نداشته باشند (به هم شبیه نباشند) که در این صورت در زمان انتقال دادها از منبع به مقصد، کارآیی یادگیری در مقصد بدتر از زمانی خواهد بود که از انتقال داده برای یادگیری استفاده نمی شود. بنابراین هدف از این تحقیق ارائه راه حلی برای کاهش انتقال منفی در یادگیری انتقالی می باشد. در حوزه یادگیری انتقالی، الگوریتم های زیادی مطرح شده که در این پایان نامه از الگوریتم multisourcetradaboost استفاده شده است. در این الگوریتم به دلایلی از جمله وابستگی وزن دهی اولیه به کاربر و عدم رضایت کاربران در وارد کردن وزن اولیه در زمانی که تعداد زیادی داده وجود دارد، دقت الگوریتم کاهش یافته و به بروز خطا منجر می گردد. برای کاهش انتقال منفی فرض شده است که با استفاده از فراداده ها که به همراه منبع و مقصد وجود دارد به ارزیابی منابعی پرداخته می شود که شباهت بیشتری به مقصد دارند و داده ها از آن منابع استخراج می شوند. برای این منظور به کمک روش هایی از جمله فاصله اقلیدسی وزن دار، میانگین وزن دار و الگوریتم های همسانی رشته ها از جمله hd، ld و lcs و الگوریتم همبستگی داده ها، شباهت بین منبع و مقصد و فراداده های آن ها بدست می آید. در نهایت وزنی براساس شباهت بدست آمده، به منابع اختصاص داده می شود که براساس این وزن ها بخشی از داده ها از منابع به صورت تصادفی برای انتقال به مقصد استخراج می شوند. پس از این مرحله بر روی مقصد و داده های بدست آمده از منبع پیش پردازش هایی صورت می گیرد تا آن ها را برای تزریق به الگوریتم multisourcetradaboost آماده نماید. آزمایشات بر روی تعدادی مجموعه داده های واقعی، نتایج خوب و بهبود 25 درصدی را با استفاده از الگوریتم یادگیری انتقالی شباهتی نشان می د هند.