نام پژوهشگر: فریده هلاکو
فریده هلاکو مهدی افتخاری
تشخیص و انتخاب الگوهای مهم موجود در بانک های اطلاعاتی، یکی از مسائل مهم در علم داده کاوی می باشد. با توجه به افزایش روزافزون داده های پزشکی و حجیم شدن بانک های اطلاعاتی، استفاده از روش های هوشمند برای دستکاری و مدیریت آنها اجتناب ناپذیر است. پیدا کردن زیرمجموعه ای از ویژگی ها (ستون های داده ای موجود در مجموعه داده ها) از یک مجموعه بزرگ، مسأله ای است که در بسیاری از زمینه ها پیش می آید. از آنجایی که افزایش تعداد ویژگی ها هزینه محاسباتی یک سیستم را افزایش می دهد، طراحی و پیاده سازی سیستم ها با کمترین تعداد ویژگی ضروری به نظر می رسد. از طرف دیگر توجه به این موضوع بسیار مهم است که زیرمجموعه موثری از ویژگی ها انتخاب شود که کارآیی قابل قبولی برای سیستم ایجاد کند. کارهای اخیر نشان می دهند که انتخاب ویژگی، می تواند تاثیر مثبتی بر روی کارآیی الگوریتم های یادگیری ماشین داشته باشد. موفقیت بسیاری از الگوریتم های یادگیری در کوشش آنها برای ساخت مدلی از داده هاست که وابسته به شناسایی مطمئن مجموعه کوچکی از ویژگی های ورودی است. دارا بودن ویژگی های نامربوط و زائد در مرحله ساخت مدل می تواند به کارآیی ضعیف و محاسبات زیاد منجر شود. در این پایان نامه قصد داریم چهار روش ترکیبی جدید را برای شناسایی snpهای (single nucleotide polymorphism) کاندید ارائه دهیم. سه روش پیشنهادی اول دارای ساختار مشابهی بوده و از دو مرحله فیلتر و بسته بندی تشکیل شده اند. در این روش ها از الگوریتم فیلتر مبتنی بر همبستگی در مرحله اول و از سه الگوریتم k-نزدیک ترین همسایه، شبکه عصبی پیشخور و رگرسیون مرزبندی، در مرحله بسته بندی استفاده شده است. روش چهارم ساختار کاملا متفاوتی داشته و براساس رابطه بین معیارهای فیلتر و بسته بندی ارائه شده است. این روش از سه مرحله ایجاد بانک اطلاعاتی، آموزش شبکه عصبی و انتخاب snpهای کاندید تشکیل شده است. نتایج بدست آمده، نشان دهنده قدرت روش های ارائه شده در مقایسه با روش های قبل می باشد.