نام پژوهشگر: مهشید خطیبی بردسیری
مهشید خطیبی بردسیری مهدی افتخاری
عملکردهای زیستی پروتئین ها به واکنش های شیمیایی آنها با محیط پیرامون و سایر پروتئین ها بستگی دارد. به عبارت دیگر، ساختار سه بعدی و نحوه تاخوردن اجزای پروتئین ها در فضا، چگونگی این تعاملات را تعیین می کند. تشخیص صحیح الگوی تاخوردگی پروتئین با استفاده از اطلاعات استخراج شده از توالی آن، یکی از مسائل پیچیده و بحث برانگیز در زمینه بیوانفورماتیک می باشد. در این پایان نامه، سه روش نوین مبتنی بر الگوریتم های یادگیری ماشین برای طبقه بندی پروتئین ها بر اساس الگوی تاخوردگی آنها، ارائه شده است. هر سه روش پیشنهادی بر روی یک پایگاه داده پروتئینی رایج و شناخته شده در این زمینه، مورد ارزیابی قرار گرفته اند. ایده اصلی روش پیشنهادی اول، ترکیب الگوریتم های یادگیری جمعی مبتـنی بر درخت های تصمیم گیری است. این روش شامل سه مرحله اصلی می باشد که با استفاده از طبقه بندهای adaboost.m1، random forest و rotation forest و سه روش ترکیبی متفاوت اجرا می گردند. دقت کل حاصل از طبقه بند نهایی این روش، نسبت به نتایج به دست آمده در پژوهش های پیشین که از پایگاه داده و مجموعه ویژگی های مشابه استفاده کرده اند، برتری دارد. روش پیشنهادی دوم بر مبنای ترکیب دو الگوریتم تکاملی برنامه نویسی ژنتیک (چند ژنی) و الگوریتم ژنتیک می باشد. این روش با تبدیل مسئله چند کلاسی تعیین الگوی تاخوردگی پروتئین به تعدادی مسئله دودویی کوچکتر، به حل آن می پردازد. طبقه بند نهایی به دست آمده در روش دوم، نسبت به روش پیشنهادی اول و سایر روش های مطرح شده در پژوهش های پیشین که از پایگاه داده مشابه استفاده کرده اند، به لحاظ دقت طبقه بندی برتری دارد. ایده روش پیشـنهادی سوم نیز طبقه بندی سلسله مراتبی پروتئین ها در دو سطح مجزا و با استفاده از ترکیب سه الگوریتم adaboost.m1، random forest و rotation forest می باشد. این الگوریتم سلسله مراتبی با کاهش ابعاد مسئله و تفکیک کلاس ها از هم، به دقت قابل قبولی برای شناسایی الگوی تاخوردگی پروتئین ها دست یافته است. هدف از هر سه الگوریتم پیشنهادی این پایان نامه ارائه روشی کارا و کم هزینه است که با دقت قابل قبولی به تعیین الگوی تاخوردگی پروتئین بپردازد.