نام پژوهشگر: اکرم وثیقی ذاکر
اکرم وثیقی ذاکر سعید جلیلی
براساس این اصل که ژنهای بیماری های مشابه احتمالاً ویژگی های مشابه دارند، تاکنون برخی روشهای یادگیری ماشین برای پیشبینی ژنهای بیماری جدید با استفاده از ژنهای شناخته شده عامل بیماری به کار گرفته شده است. روشهای پیشین معمولاً یک مدل دستهبند دوکلاسی با استفاده از ژنهای شناخته شده ی بیماری به عنوان مجموعه ی آموزشی مثبت، و ژنهای ناشناخته به عنوان مجموعه ی آموزشی منفی، ایجاد میکردند. اما مجموعه ی منفی که آنها استفاده می کردند دارای نویز است. زیرا ژنهای ناشناخته می تواند شامل ژنهای شناخته نشده ی بیماری، یعنی مجموعه ی مثبت هم باشد. بنابراین دستهبند ایجاد شده به خوبی عمل نخواهد کرد. اخیراً روش هایی مبتنی بر یادگیری نیمه نظارتی با استفاده از داده های مثبت و بدون برچسب برای شناسایی ژن های بیماری به کار گرفته شده اند. این روش ها هم منطقاً روش درستی برای ارائه راه حل برگزیده اند و هم نتایج بهتری نسبت به روش های قبل کسب کرده اند. در این پایان نامه دو روش ارائه شده است: 1) روش یادگیری تک کلاسی با استفاده از داده های مثبت و 2) روش یادگیری نیمه نظارتی با استفاده از داده های مثبت و بدون برچسب. در روش اول سعی شده است با نادیده گرفتن مجموعه بدون برچسب، اثر نامطلوب مجموعه منفی دارای نویز کاهش داده شود و با یک دسته بند تک کلاسی ژن های کاندید بیماری را دسته بندی می کنیم. سپس برای بالا بردن دقت، در روش دوم داده های بدون برچسب را هم در یادگیری دخالت می دهیم. بدین صورت که با توجه به ساختار و الگوی ژن های کاندید بیماری و همچنین با استفاده از اندازه گیری شباهت ژن های بدون برچسب به ژن های کاندید بیماری، تعدادی داده ی منفی از داده های بدون برچسب استخراج می کنیم. سپس یک دسته بند دوکلاسی با استفاده از این نمونه های منفی و نمونه های مثبت اولیه یادگیری می کنیم. در نهایت ژن های مثبت به دست آمده از دسته بند را با استفاده از تابع امتیازدهی رتبه بندی می کنیم. نتایج به دست آمده نشان می دهد که دقت دسته بندی در روش اول 7.4% و در روش دوم به مقدار 27.4% نسبت به روش های پیشین افزایش یافته است. و همینطور در نتایج اولویت بندی روش اول نرخی حدود 6% و در روش دوم نرخی حدود 7% افزایش را مشاهده می کنیم.