مقایسه الگوریتم‌های برپایه یادگیری ماشین بر دقت تخمین داده‌های گمشده حاصل از آزمایش‌های ریزآرایه

نویسندگان

  • فرزان قانع گلمحمدی دانش آموخته کارشناسی ارشد بیوتکنولوژی کشاورزی، گروه زیست‌شناسی سیستم‌ها، پژوهشکده بیوتکنولوژی کشاورزی ایران، کرج، ایران
  • مریم مشیری دانش آموخته کارشناسی ارشد اصلاح نژاد دام، گروه علوم دامی، دانشکده کشاورزی، دانشگاه فردوسی مشهد، ایران
چکیده مقاله:

وجود داده‌های گمشده در داده‌های ریزآرایه، سبب کاهش دقت رسم شبکه‌های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم‌بندی تخصصی ژن‌ها و سایر تحلیل‌ها می‌شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده‌های ریزآرایه، محسوب می‌شود. عملکرد الگوریتم-های تخمین در مجموعه داده‌های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب‌ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده‌های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایش‌های ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده‌ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده‌های مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتم‌ها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتم‌های مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده‌ها وابسته است. همچنین تعداد نمونه‌های آزمایشی موجود در مجموعه داده‌ها نیز می تواند بر دقت الگوریتم‌های تخمین داده‌های گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتم‌ها با افزایش درصد داده‌های گمشده بود، اما الگوریتم‌های Least Square Adaptive و Local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده‌ها نسبت به سایر الگوریتم‌ها نشان دادند.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

مقایسه الگوریتم های برپایه یادگیری ماشین بر دقت تخمین داده های گمشده حاصل از آزمایش های ریزآرایه

وجود داده های گمشده در داده های ریزآرایه، سبب کاهش دقت رسم شبکه های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم بندی تخصصی ژن ها و سایر تحلیل ها می شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده های ریزآرایه، محسوب می شود. عملکرد الگوریتم-های تخمین در مجموعه داده های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب ترین الگوریتم به منظور دستیابی به بیشترین دقت...

متن کامل

مروری بر روش‌های تخمین هزینه نرم‌افزار مبتنی بر یادگیری ماشین

Software project management software is the most important activity in software development, because it contains the whole software development process, from beginning to end. Software cost estimation is a challenge task in the software project management. It is an old activity in computer industry from 1940s and has been developed many times. Effort, only covers part of the cost of a software ...

متن کامل

ارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده

اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری  شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز ت...

متن کامل

بررسی نتایج حاصل از آزمایشهای cpt در شرایط آزمایشگاهی با تاکید بر تکرارپذیری و دقت نتایج

آزمایش درجای نفوذ مخروط که اختصاراً به آن cpt (cone penetration test) گفته می شود یکی از پرکاربردترین و پرطرفدارترین آزمایشات درجا می باشد. استفاده وسیع از این آزمایش به سبب اقتصادی بودن و سرعت عمل آن در مهندسی ژئوتکنیک در شناسایی لایه های خاک و مشخصات آن، موجب گشته است که محققین بسیاری به روشهای گوناگون تحلیلی، تجربی و عددی به مطالعه این آزمایش در خاک بپردازند تا ارتباط صحیحی بین مشخصات خاک و م...

15 صفحه اول

تخمین پارامترهای کیفی آب با استفاده از ترکیب روش‏ ‏ماشین یادگیری قدرتمند و تئوری موجک

ﻫریک از ﻣﺼﺎرف ﮔﻮﻧﺎﮔﻮن آب ﻣﺎﻧﻨﺪ ﻛﺸﺎورزی، ﺷﺮب و ﺻﻨﻌﺖ ﻧﻴﺎزﻣﻨﺪ آب ﺑﺎ ‌کیفیتی ﻣﺸﺨﺺ ﻫﺴﺘﻨﺪ ﻛﻪ حدود کیفی آن، ﺑﺎ ﻧﻤﻮﻧﻪ‌ﺑﺮداری‏ﻫﺎی ﻣﻜﺮر، آزﻣﺎﻳﺶ و ﺗﺤﻠﻴﻞ ﻧﺘﺎﻳﺞ ﻣﺸﺨﺺ ﻣﻲ‏شود‏. ﻫﺰینۀ ﻧﻤﻮﻧﻪ‏ﺑﺮداری از آب‏ﻫﺎی ﺳﻄﺤﻲ، اﻧﺪازهﮔﻴﺮی ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲ در ﻣﺤﻴﻂ آزﻣﺎیشگاه و ﺧﻄﺎﻫﺎی اﻧﺴﺎﻧﻲ، از ﺟﻤﻠﻪ ﻣﺸﻜﻼت ﻣﻮﺟﻮد در ﺗﺨﻤﻴﻦ ﻏﻠﻈﺖ ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲ‌اند‏. ﺑﻪ ﻫﻤﻴﻦ ﻣﻨﻈﻮر، ﺑﺮای اﻟﮕﻮﺑﻨﺪی ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲ آب، روش‏ﻫﺎی ﻣﺨﺘﻠﻔﻲ وﺟﻮد دارد ﻛﻪ در اﻳ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


عنوان ژورنال

دوره 28  شماره 4

صفحات  612- 622

تاریخ انتشار 2016-02-20

با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023