نام پژوهشگر: امین عصاره
امین عصاره محمدحسن مرادی
پیشرفت های سریع در طیف سنجی جرمی نمونه های بیولوژیک این حوزه را به عنوان بستری قدرتمند جهت تشخیص بیماری ها و اکتشاف نشانگرهای حیاتی معرفی کرده است. در عین حال مشکل ابعاد بالای فضای دادگان ود رمقابل تعداد اندک نمونه ها در مجموعه دادگان پروتئینی سرطان، گرایش این حوزه به سمت استراتژی های داده کاوی را بیشرت کرده است. یادگیری ماشینی و یا به عبارتی استخراج اتوماتیک یک مدل پیشگو از مجموعه تعلیم، قلب یک فرآیند داده کاوری است که شناسایی الگوهای مورد نظر براساس تجربه را برای کامپیوتر ممکن می سازد. درمطالعه حاضر ضمن بررسی و مقایسه روش های پردازشی و الگوریتم های یادگیری ماشینی به کار رفته و با قابل استفاده در حوزه طیف سنجی جرمی پروتئین های خون به ارائه رویکردی براساس ترکیب طفقه بندی کننده ها و به منظور ارتقاء نرخ تشخیص صحیح الگوریتم های موجود پرداخته شه و به این منظور از سه مجموعه داده مربوط به سرطان های تخمدان و پروستات استفاده شده است. در این راستا پس از اعمال مراحل پیش پردازش شامل حذف نویز و نرمالیزاسیون روش های اسخراج و انتخاب ویژگی مختلف با یکدیگر مورد مقایسه قرار گرفته و در نهایت استفاده از کل فضا با (اعمال وزن منفی برای نقاط همسایه و یا دارای همبستگی) به عنوان ویژگی های نهایی پیشنهاد شده اند. در ادامه با استفاده از ویژگی های انتخابی به مقایسه عملکرد هشت گروه از الگوریتم های یادگیری ماشینی شامل روش های بیزین، نزدیکترین همسایگی، رگرسیون لگاریتمی، درخت های تصمیم، ماشین های بردار پشتیبا، شبکه های عصبی، سیستم قاعده پایه فازی و نیز روش های ترکیبی پرداخته شده است و در پایان استراتژی پیشنهادی در این پروژه براساس استفاده همزمان از نمونه برداری تصادفی از مجموعه تعلیم و ویژگی های رتبه بالا و همچنین اعمال الگوریتم های یادگیری مختلف به منظور ساخت یک تیم از طبقه بندی کننده ها با حداکثر تنوع در خروجی مورد ارزیابی قرار گرفته است. نتایج حاصل نوید دهندعملکرد بسیار مناسب استرتژی پیشنهادی در ارتقای نرخ تشخیص طبقه بندی کننده های پایه می باشند.