نام پژوهشگر: سید حامد صابری

انتخاب ژن و طبقه بندی داده های میکروآرایه از سرطان ریه با استفاده از الگوریتم وزن-رای و روش تجزیه تمایزی کمترین مربعات جزیی
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه کاشان - دانشکده شیمی 1390
  سید حامد صابری   سعید معصوم

مصرف سیگار عامل بیش از 90 درصد موارد سرطان ریه است و هنوز تغییرات دقیق مولکولی ای که به علت مصرف سیگار در ریه ایجاد و منجر به ایجاد سرطان می گردند، هنوز ناشناخته مانده اند. در این پژوهش، از داده های میکروآرایه استفاده شده است. داده های میکروآرایه معمولا حاوی حجم عظیمی از داده های ژن مزاحم و بی فایده می باشند. این مجموعه داده های مزاحم، حاوی اطلاعاتی نادرست و بی ربط هستند، به همین دلیل بسیار مطلوب است که قبل از طبقه بندی داده های میکروآرایه، در حد امکان، این داده های مزاحم را حذف نمود. یک راهکار برای بهبود راندمان طبقه بندی داده های میکروآرایه، ایجاد یک انتخاب محدود و کوچک از میان حجم انبوهی از داده های بیان ژن با ابعاد بالا می باشد. انتخاب ژن های موثر برای طبقه بندی و دسته بندی نمونه ها، یک کار عمومی در مطالعات بیان ژن می باشد. در این پژوهش، برای انتخاب ژن ها از الگوریتم وزن- رای استفاده و ژن هایی که بیان آن ها در افراد سیگاری و غیرسیگاری در هر دو گروه سرطانی و غیرسرطانی تفاوت بسیار زیادی داشتند مانند ژن های ggk، ttk، aurka، nek2، cenpf، cyp1b1 و ... شناسایی شد. هم چنین برای طبقه بندی داده ها از الگوریتم تجزیه ی تمایزی کمترین مربعات جزیی(pls-da) به همراه پیش پردازش تمرکز بر میانگین یا هم مقیاس کردن استفاده شده است. در مرحله بعد بیان ژن ها در افراد سیگاری، غیرسیگاری و کسانی که ترک سیگار نموده را بررسی کرده و مشخص شد که بیان ژن های افرادی که سیگار را ترک کرده اند با افراد سیگاری متفاوت و به افراد غیرسیگاری نزدیک است.