نام پژوهشگر: محمد حسین زنگویی

پیش بینی ساختارهای دوم و سوم پروتئین با کمک روش های یادگیری ماشین
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس 1390
  محمد حسین زنگویی   سعید جلیلی

مولکول پروتئین زنجیره خطی از اسید آمینه ها است. پیش بینی ساختارهای پروتئین از جمله مسائل چالش برانگیزی است که در طی 35 سال گذشته محققان بسیاری در سراسر دنیا در این زمینه تحقیق کرده اند. اکثر ساختار و عملکرد سلول ها توسط پروتئین ها تعیین می شوند. عملکرد یک پروتئین توسط ساختار آن تعیین می شود. اما به دست آوردن و تعیین ساختار پروتئین کاری مشکل می باشد. برای به دست آوردن ساختار پروتئین از روی دنباله اسید های آمینه آن نیاز به روش های محاسباتی سنگینی می باشد. امروزه به کارگیری علوم مهندسی برای حل مسائل حوزه علوم زیستی و پزشکی به سرعت و با موفقیت رو به افزایش است، بنابراین بسیاری از دانشمندان علوم کامپیوتر به این سمت گرایش پیدا کرده اند تا بتوانند از روش های مختلف یادگیری ماشین در پیاده سازی سیستم های خودکار هوشمند به منظور دسته بندی پروتئین ها کمک بگیرند. هدف نهایی در ساخت این سیستم ها، نزدیک بودن هر چه بیشتر تصمیم اتخاذ شده توسط ماشین به تصمیم فرد خبره زیست شناس می باشد. دقت روش های یادگیری ماشین برای پیش بینی ساختار دوم و سوم (تاخوردگی) پروتئین به ترتیب حدود 80% و 60% می باشد و محققان در تلاش هستند که بتوانند با استفاده از روش های یادگیری ماشین این دقت را افزایش دهند. در این پژوهش ابتدا به بررسی ساختار دوم و تاخوردگی پروتئین پرداخته و سپس با استفاده از چندین روش مبتنی بر روش های یادگیری ماشین (ماشین بردار پشتیبان، شبکه عصبی و c4.5)، تلاش کردیم ساختارهای پروتئین را با دقت قابل قبولی پیش بینی کنیم. با بهینه سازی پارامتر های ماشین بردار پشتیبان و ترکیب کرنل های آن، دقت پیش بینی ساختار دوم پروتئین در مقایسه با سایر روش ها حدود 2% بهبود داشت. همچنین در ساختار سوم پروتئین با بهبود روش های بردار پشتیبان و شبکه های عصبی و سپس ترکیب این دو روش، دقت یادگیری نسبت به سایر روش ها حدود 3% بهبود یافت.