نام پژوهشگر: رقیه ابوالقاسمی
رقیه ابوالقاسمی بهرام صادقی بی غم
تجزیه، تحلیل و طبقه بندی داده های میکروآرایه یکی از موضوعات چالش برانگیز در حیطه بیوانفورماتیک است. از مهم ترین ویژگی های داده های میکروآرایه، ابعاد بسیار بالا (تعداد ژن های زیاد) در برابر تعداد کم نمونه ها می باشد. این عامل، باعث بروز مشکلات و چالش هایی در زمینه تحلیل این نوع داده ها شده است. بنابراین از روش های انتخاب ویژگی و کاهش ابعاد داده ها جهت حل این مشکلات و ارائه مدلی ساده تر و دقیق تر استفاده می شود. در این پژوهش، روشی برای یافتن ژن های حاوی اطلاعات و همچنین طبقه بندی داده های میکروآرایه ارائه گردیده است. روش پیشنهادی از سه بخش اصلی تشکیل شده است. در بخش اول، ابعاد داده ها با استفاده از شبکه عصبی som غیر نظارتی کاهش یافته و به فضایی شامل نورون ها نگاشت می شود. در بخش دوم، به وسیله الگوریتم ژنتیک، زیرمجموعه های بهینه حاوی نورون ها استخراج شده و نورون ها رتبه بندی می گردند. در آخرین بخش، ژن های حاوی اطلاعات با ارزش انتخاب می گردند. در این روش به علت استفاده از شبکه عصبی som ، ژن های خلاصه سازی شده برای انتخاب ویژگی استفاده می شوند که همین امر باعث کاهش زمان محاسباتی انتخاب ویژگی نسبت به روش هایی است که خلاصه سازی در آن ها صورت نمی گیرد. همچنین به علت عدم استفاده از روش های آماری (آزمون (t جهت رتبه بندی مجزای ویژگی ها، تمامی ژن ها یا نمایندگان آن ها در مراحل انتخاب ویژگی و ساخت مدل شرکت دارند. روش پیشنهادی بر روی یکی از مجموعه داده های پرچالش که مربوط به میکروآرایه سرطان سینه است، جهت طبقه بندی نمونه ها و انتخاب ویژگی (ژن ها) بر اساس دو نوع تومور لومینال و غیرلومینال به کار گرفته شد و توانست میانگین صحت طبقه بندی مدل ها را در اعتبارسنجی متقاطع ?? تایی، نسبت به روش های پیشنهادی قبلی بر روی همین داده ها از ?? درصد به ?? درصد برساند. علاوه بر این، ژ ن های انتخاب شده به عنوان ژن های حاوی اطلاعات با ارزش، از لحاظ عملکردهای زیستی، از عوامل موثر در تمایز دو نوع سرطان لومینال و غیرلومینال می باشند که همین امر، قدرت روش پیشنهادی را در بهبود مدل های طبقه بندی و انتخاب ویژگی های موثر هرچه بیشتر بیان می نماید.