نام پژوهشگر: سمیرا مالی
سمیرا مالی میر محسن پدرام
حجم انبوه داده¬هایی که امروزه در آزمایشگاه¬های علوم تجربی حاصل می¬شوند، به زعم وجود تکنیک¬ها و متد¬های آزمایشگاهی پیشرفته، برای تحلیل، نیاز مبرم به روش¬های محاسباتی دارند. استنتاج منطقی روابط پیچیده¬ای که بین داده¬ها از نظر مفهوم زیستی و کاربردشان در آن حیطه وجود دارد، بدون وجود روش¬های آماری و الگوریتم¬های کامپیوتری بسیار سخت و تقریبا غیر ممکن به نظر می¬رسد. از طرفی ریاضیات محض نیز بدون حضور مفاهیمی که در پشت مجموعه داده نهفته است، اینکه این داده¬ها طی چه فرآیند¬هایی استخراج شده¬اند و در چه مکانیزم¬هایی در سلول شرکت کرده¬اند، نمی¬تواند کارگشا باشد. لذا "بیوانفورماتیک" با هدف ترکیب آگاهانه این دو زمینه شکل گرفته¬است. ریزآرایه¬ها یکی از اساسی ترین تکنولوژی¬های تولید داده هستند که تحلیل درست¬ داده¬های حاصل از آن¬ها پاسخ¬دهنده بسیاری از سوالات کلیدی زیست¬شناسان خواهد بود. در این پایان نامه با هدف تخمین داده های مفقود در خروجی این دستگاه، پس از انتخاب ژن¬های منتخب، ابتدا یک روش خوشه بندی با عنوان خوشه بندی طیفی با معیار شباهت ضریب همبستگی پیرسون برای مجموعه داده سرطان خون معرفی می¬کنیم. نتیجه این خوشه¬بندی با روش¬های دیگر به کمک منحنی مشخصه عملکرد سیستم مقایسه می شود. پس از آن الگوریتم sllsimpute، الگوریتم معروف برای تخمین داده مفقود، روی هرکدام از خوشه¬ها به طور مجزا اجرا شده و نتایج با الگوریتم های دیگر تخمین داده مفقود مقایسه می¬شود. نتایج آزمایشگاهی نشان می¬دهد که روش پیشنهادی بر حسب جذر میانگین مربع خطا دارای کارایی قابل قبول، نسبت به سایر روش¬ها می¬باشد.