نام پژوهشگر: سعیده محمودیان
سعیده محمودیان نصرالله مقدم چرکری
مولکول پروتئین زنجیره خطی از اسید آمینه ها است. پیش بینی برهم کنش های پروتئین-پروتئین یک مسئله مهم در بیوانفورماتیک و سیستم های زیستی به حساب می آید. در حقیقت استخراج برهم کنش های میان پروتئین ها برای ساختن شبکه های برهم کنشی پروتئینی ضروری می باشد. این شبکه ها نقش مهمی در شناخت اکثر فرایندهای زیستی دارند. در سال های اخیر، از روش های آزمایشگاهی با توان عملیاتی بالا برای کشف برهم کنش های پروتئین-پروتئین استفاده شده است. اما این روش ها داده های ناقصی را تولید می کنند که دارای داده های مثبت کاذب و منفی کاذب زیادی هستند. از آنجاییکه امروزه به کارگیری علوم مهندسی برای حل مسائل حوزه علوم زیستی و پزشکی به سرعت و با موفقیت رو به افزایش است، بسیاری از محققان علوم کامپیوتر به این سمت گرایش پیدا کرده اند تا بتوانند از روش های مختلف یادگیری ماشین در پیاده سازی سیستم های خودکار هوشمند به منظور دسته بندی پروتئین ها کمک بگیرند. هدف نهایی در ساخت این سیستم ها، نزدیک بودن هر چه بیشتر تصمیم اتخاذ شده توسط ماشین به تصمیم فرد خبره زیست شناس می باشد. از این رو، تکنیک های یادگیری ماشین مختلفی برای افزایش دقت روش های پیش بینی برهم کنش پروتئین-پروتئین بکار رفته اند. این پیش بینی عموماً یک نوع دسته بندی است که از ویژگی های مختلف پروتئین مانند داده های ژنی، ساختاری و نحوه بیان پروتئین ها استفاده می کند. البته بدست آوردن این اطلاعات هزینه زیادی دربر دارد. اطلاعات ساختار اول یا همان توالی پروتئین ها در دسترس می باشد و استفاده از این داده ها بر خلاف سایر داده های پروتئینی نیاز به داشتن دانش اولیه ای از پروتئین ها ندارد، بنابراین ما در کار خود از این داده ها استفاده می کنیم. در این پژوهش ابتدا به بررسی برهم کنش های پروتئین-پروتئین پرداخته و سپس با استفاده از چندین روش مبتنی بر یادگیری ماشین، تلاش کردیم تا برهم کنش های پروتئین-پروتئین را با دقت قابل قبولی پیش بینی کنیم. با استفاده از ماشین بردار پشتیبان در حالت رگرسیون و بهینه سازی پارامترهای آن با روش جستجوی سلسله مراتبی موازی در مکعب مشبک، دقت پیش بینی برهم کنش های پروتئین-پروتئین بر روی مجموعه داده kups در مقایسه با سایر روش ها 3% بهبود داشت. همچنین با استفاده از یک روش ترکیبی از الگوریتم ژنتیک و شبیه سازی التهابی توانستیم همزمان تعداد ویژگی های مجموعه داده را به همراه مقادیر پارامترهای ماشین بردار پشتیبان بهینه کنیم. روش خود را بر روی مجموعه داده های s.cerevisiae و kups اعمال کردیم و توانستیم به ترتیب به 2.8% و 3.8% بهبود در مقایسه با سایر روش های موجود بر روی این مجموعه داده ها برسیم. همچنین به منظور بررسی عمومیت روش و کارایی آن از چندین مجموعه-داده پزشکی از مرجع uci استفاده شده است. کلید واژه: پروتئین، برهم کنش های پروتئین-پروتئین، پیش بینی برهم کنش های پروتئین-پروتئین، روش های محاسباتی، ماشین بردار پشتیبان.