نام پژوهشگر: معین پیریایی

دسته بندی پروتئین ها با استفاده از روش های کرنل و خواص شیمیایی آمینواسیدها
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده فنی 1391
  معین پیریایی   مجید محمدبیگی

پروتئین ها نقش مهمی در بسیاری از فرآیندهای حیاتی ایفا می کنند. پروتئین ها مولکول های پیچیده ای هستند که از توالی بیست آمینواسید مختلف تشکیل یافته اند. ساختار اول در پروتئین ها همین توالی خطی آمینواسید های خاص در آنها می باشد. دانستن ساختار و کار پروتئین ها دارای کاربرد های مختلفی نظیر طراحی دارو، تشخیص بیماری و حتی بهبود کیفیت محصولات و سوخت های حیاتی مصنوعی می باشد. امروزه با پیشرفت های اخیر در زمینه ی ترادف یابی شاهد رشد نمائی در اطلاعات دنباله های پروتئینی بوده ایم. ساختارهای پروتئینی عمدتا توسط پراش پرتو ایکس و طیف بینی تشدید مغناطیسی هسته تعیین می شوند. اما این روش ها وقت گیر، پرهزینه و غیرقابل کاربرد در مورد تمامی پروتئین ها می باشند. در غیاب اطلاعات ساختاری در مورد پروتئین ها تحلیل دنباله های پروتئینی، منبع اصلی اطلاعات در مورد بسیاری از پروتئین های جدید می باشد. در بسیاری از موارد شباهت دنباله های پروتئینی منجر به عملکرد مشابه یا مرتبط می شود. در طول سال های گذشته الگوریتم ها و روش های یادگیری ماشین مختلفی برای دسته بندی پروتئین ها پیشنهاد شده است. از جمله این روش ها، روش های کرنل می باشند. ایده اصلی در روش های کرنل نگاشت داده های ورودی به یک فضای برداری با ابعاد معمولا بالاتر و سپس یافتن یک جداساز مناسب در این فضا می باشد. روش های کرنل جز روش های دنباله محور در دسته بندی پروتئین ها می باشند. به این معنی که الگوریتم مورد نظر به طور مستقیم بر روی توالی خطی آمینواسیدهای تشکیل دهنده ی یک دنباله ی پروتئینی عمل می کند. رهیافت دیگری که برای دسته بندی پروتئین ها می توان در نظر گرفت، استفاده از یک نگاشت برای انتقال دنباله های پروتئینی به یک فضای برداری و سپس اعمال یک الگوریتم دسته بندی در این فضای جدید می باشد. روش مبتنی بر استفاده از ترکیب شبه آمینواسیدی برای دنباله های پروتئینی، جز روش های این دسته می باشد، که در نگاشت به فضای برداری از خواص بیوشیمیایی آمینواسیدهای تشکیل دهنده ی دنباله ی پروتئینی استفاده می کند. در این پایان نامه به مسئله ی دسته بندی پروتئین ها با استفاده از روش های کرنل و همچنین استفاده از خواص شیمیایی آمینواسیدها به عنوان ویژگی جهت یادگیری ماشین پرداخته شده است. از بین روش های کرنل موجود در زمینه ی دسته بندی پروتئین ها چهار روش کرنل طیفی، کرنل عدم تطبیق، کرنل شکاف دار و نیز کرنل ترازیابی محلی پیاده سازی شده اند. روش مبتنی بر استفاده از ترکیب شبه آمینواسیدی نیز به طور کامل پیاده سازی و نتایجش با روش های کرنل مقایسه شده است. جهت ارزیابی روش های مورد بررسی، از چهار خانواده ی پروتئینی استفاده شده است. نتایج بیانگر کارایی هر دو روش کرنل و نیز روش مبتنی بر استفاده از ترکیب شبه آمینواسیدی، بسته به خانواده ی مورد بررسی می باشد. به عبارت دقیق تر از بین روش های کرنل، کرنل ترازیابی محلی دارای کارایی بهتری نسبت به سایر روش های کرنل می باشد. روش مبتنی بر استفاده از ترکیب شبه آمینواسیدی نیز، در مورد دو خانواده پروتئینی نتایج بهتری از کرنل ترازیابی محلی داشته است.