نام پژوهشگر: هاجر طاهری زاده
هاجر طاهری زاده سعید معصوم
سرطان ریه علت اصلی مرگ و میر ناشی از سرطان در جهان است. سرعت مرگ و میر زیاد در نتیجه ی فقدان ابزار موثر برای تشخیص این بیماری در مراحل اولیه است. گفته شده است که سیگار کشیدن باعث ایجاد تفاوت در الگوی بیان ژن افراد بدون سرطان ریه و افراد دارای سرطان ریه می شود. در این پژوهش سعی شد که با استفاده از الگوی بیان ژن افراد سیگاری دارای سرطان ریه و بدون سرطان ریه، با استفاده از کمومتریکس مدل هایی برای دسته بندی افراد دارای سرطان و بدون سرطان ریه ایجاد شود. ابتدا داده های مربوط از سایت گرفته شد و به مجموعه ی آموزش و آزمون تقسیم شد. سپس با استفاده از الگوریتم تجزیه ی مولفه ی اصلی (pca) بدون پیش پردازش، همراه با پیش پردازش تمرکز بر میانگین و پیش پردازش هم مقیاس کردن مدل هایی ایجاد شد. مدل های پیشنهاد شده ی pca قادر نشدند دو دسته را به خوبی از هم جدا کنند. بعد از آن از تجزیه ی تمایزی کمترین مربعات جزئی (pls-da) برای ایجاد مدل استفاده شد. مدل ایجاد شده ی بدون پیش پردازش نتوانست دو دسته را از هم جدا کند. مدل های ایجاد شده با این روش همراه با پیش پردازش تمرکز بر میانگین و هم مقیاس کردن تا حدی توانستند دو گروه را از هم جدا کنند. پس از آن ایجاد مدل با استفاده از ژن های موثر در ایجاد بیماری انجام شد. pca باز هم نتایج خوبی نداشت. این بار مدل pls-da بدون پیش پردازش داده ها در مقایسه با مدل ایجاد شده با همه ی ژن ها هم تا حدی توانست دو گروه را از هم جدا کند. بعد از آن از روش نقشه های خود مرتب شونده (som) برای ایجاد مدل استفاده شد. این مدل بازده نامناسب 72% را برای مجموعه ی آموزش داشت. در نهایت با استفاده از ماشین های بردار پایه (svm) مدلی ایجاد شد که بازده 100% برای مجموعه ی آموزش و 84% برای مجموعه ی آزمون را داشت.