نام پژوهشگر: فهیمه گلزاری
فهیمه گلزاری سعید جلیلی
با شناسایی کامل دنباله های پروتئینی در برخی از موجودات زنده همچون انسان، دوره جدیدی در علم زیست شناسی و علوم مرتبط آغاز گردید. هدف اصلی در این دوره، شناسایی عملکرد پروتئین های بی-شماری است که دنباله و ساختار آن ها به طور کامل شناسایی شده است، اما از عملکرد قطعی آن ها اطلاعات دقیقی در دسترس نیست. با توجه به نقش وکارکرد حیاتی پروتئین ها در بسیاری از فعالیت های حیاتی موجودات زنده، مطالعه و تعیین عملکرد آن ها در حوزه های گوناگونی حائز اهمیت می باشد. نخستین رویکرد جهت شناسایی عملکرد پروتئین ها، بهره گیری از روش های آزمایشگاهی است. از آن جایی-که این روش ها بسیار زمان بر و پرهزینه می باشند، می توان روش های محاسباتی را جایگزین مناسبی برای آن ها دانست. این روش ها دارای هزینه های به مراتب کمتر و در عین حال دقت عمل معقول و مناسبی هستند. از بین روش های محاسباتی موجود، تکنیک های یادگیری ماشین از جایگاه ویژه ای برای حل این مسأله برخوردارند. در واقع این تکنیک ها با استفاده از منابع داده ای موجود، مدلی را یادگیری می کنند که این مدل قادر به پیش بینی مجموعه عملکردهای یک پروتئین ناشناخته خواهد بود. علی رغم موفقیت های زیادی که در زمینه یادگیری مدل های دسته بندی حاصل شده است، هنوز تا رسیدن به مدل هایی با دقت و بهره وری قابل قبول، راه فراوانی در پیش است. در این پژوهش هدف، ارائه یک الگوریتم یادگیری ماشین، به منظور ارتقای بهره وری پیش بینی عملکرد پروتئین ها و در واقع، نزدیک شدن هر چه بیشتر تصمیم اتخاذ شده توسط ماشین، به تصمیم فرد خبره ی بیولوژیست می باشد. بدین منظور در این پژوهش دو روش ارائه شده است.، در روش اول یک الگوریتم درخت تصمیم فازی مبتنی بر کاهش واریانس پیشنهاد شده است که بدون نیاز به تبدیل ویژگی های عددی به مجموعه های فازی، درحین ساخت درخت و نه قبل از آن، مرزهای تصمیم را فازی می کند و قابلیت تخصیص چندین برچسب به هر نمونه را در کنار حفظ سازگاری رابطه ی سلسله مراتبی بین کلاس-ها، دارا می باشد. همچنین این الگوریتم می تواند بر روی هر دو ساختار درختی و گرافی بین کلاس ها اعمال شود. درحالی که روش دوم یک راه حل دو لایه ای ترکیبی را پیشنهاد می کند؛ که با فرض ناسازگار بودن کلاس های عملکردی نمونه های آموزشی، سعی در پیش بینی کلاس های عملکردی سازگار برای یک نمونه جدید دارد. نتایج ارزیابی الگوریتم بر روی چندین مجموعه داده، برتری روش های پیشنهادی را نسبت به دیگر کارهای ارائه شده در این زمینه، نشان می دهد.