نام پژوهشگر: ناصر قاسم اقایی

کاهش اختلال در دسته بندی چند برچسبی نیمه نظارتی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه شیخ بهایی - دانشکده مهندسی کامپیوتر 1393
  نیما علی نیا   ناصر قاسم اقایی

امروزه دسته¬بندی چندبرچسبی نیمه¬نظارتی در زمینه¬های بسیاری ازجمله دسته¬بندی متن و داده¬های بیوانفورماتیکی مورد استفاده قرار می¬گیرد. یادگیری نیمه¬نظارتی، برای آموزش دسته¬بند، علاوه بر نمونه¬های برچسب¬دار از نمونه¬های بدون برچسب نیز به منظور تقویت مجموعه آموزشی بهره¬ می¬برد. بااین حال، ممکن است در هر مرحله از این یادگیری، برچسب¬گذاری نادرست نمونه¬های بدون برچسب، باعث به وجود آمدن اختلال در مجموعه آموزشی شود. در این پژوهش سعی می¬شود تا روشی برای شناسایی و حذف اختلال از مجموعه داده¬ آموزشی در دسته¬بندی چند برچسبی نیمه¬نظارتی ارائه داده شود. در این پژوهش الگوریتمی بانام mlstcf ارائه می¬شود که از نگرش خودآموزی به¬عنوان روش نیمه¬نظارتی استفاده می¬کند. در هر مرحله از نگرش خودآموزی، الگوریتمی بانام فیلتر دسته¬بندی برای شناسایی و حذف اختلال به کار می¬رود. همچنین در هر مرحله از نگرش خودآموزی روشی جدید برای انتخاب نمونه¬های بدون برچسبی که دارای اطلاعات مفید هستند و همچنین روشی برای انتخاب مطمئن¬ترین نمونه¬ها ارائه می¬شود. درنهایت، الگوریتم پیشنهادی با استفاده از دو مجموعه داده معتبر با نام¬های flags و emotions مورد ارزیابی قرار می¬گیرد. در این پژوهش، 16 معیار ارزیابی مهم در دسته¬بندی چند برچسبی برای مقایسه الگوریتم پیشنهادی با دو الگوریتم mlknn وmlste در نظر گرفته می¬شود. نتایج نشان می¬دهد که الگوریتم پیشنهادی این پژوهش در مقایسه با دو الگوریتم دیگر، در دسته¬بندی مجموعه داده¬های چندبرچسبی که در آن¬ها تعداد نمونه¬های برچسب¬دار، کم و تعداد نمونه¬های بدون برچسب زیاد است موثرتر است.