خوشه‌بندی داده‌های بیان‌ژنی توسط عدم تشابه جنگل تصادفی

Authors

Abstract:

Background: The clustering of gene expression data plays an important role in the diagnosis and treatment of cancer. These kinds of data are typically involve in a large number of variables (genes), in comparison with number of samples (patients). Many clustering methods have been built based on the dissimilarity among observations that are calculated by a distance function. As increasing the dimensions reduces the performance of distance functions, most of the methods provide low accuracy. In this paper a new dissimilarity measure is introduced based on a classification method, called Random forests (RF). The performance of this new measure has been evaluated in the gene expression data. Methods: In this article, the clustering problem of Chowdary data set, using the RF dissimilarity measure, is under consideration. At the first step, the clustering problem is converted to classification problem, thereafter the new dissimilarity is calculated using the classification method of random forests. Finally, the data are clustered with a partition around mediod algorithm and the results are then evaluated by adjusted rand index. All the analysis is implemented with R software. Results: The value of adjusted rand index (0.8149) represents an acceptable agreement between clusters and true groups. The most effective gene in constructing the clusters was gene no.31 which was detected by using the unique ability of RF that is identifying the importance of variables. Conclusion:  The random forest dissimilarity is an efficient criterion for measuring dissimilarity in gene expression data clustering. Detection of effective genes in clustering that is done with RF, helps the researcher in the diagnosing and treatment of the cancers

Upgrade to premium to download articles

Sign up to access the full text

Already have an account?login

similar resources

خوشه بندی داده های بیان ژنی توسط عدم تشابه جنگل تصادفی

زمینه و هدف: خوشه بندی داده های بیان ژنی در تشخیص و درمان سرطان، دارای اهمیت بسزایی است. مشخصه ی بارز این داده ها تعداد زیاد متغیرها (ژن ها) نسبت به تعداد داده ها (بیماران) است. بسیاری از روش های خوشه بندی بر پایه ی عدم تشابه داده ها که حاصل محاسبه ی یک تابع فاصله است‏، بنا شده اند و افزایش ‏بعد‏، کارآیی توابع فاصله را کاهش می دهد‏. در این تحقیق معیاری جدید برای محاسبه ی عدم تشابه در ابعاد بالا...

full text

دسته بندی بر اساس تشابه و عدم تشابه

the concepts of similarity and dissimilarity have been the interest of many researchers. basically, in the studies the similarity between two objects or phenomena, has been discussed. in this thesis, we consider the case when the resemblance or similarity among three objects or phenomena of a set, 3-similarity in our terminology, is desired. later we will extend our definitions and propos...

15 صفحه اول

مدل پیش بینی زمان تضمین بر اساس دادههای برگشتی تصادفی

اغلب محصولات جدید همراه با ضمانت نامه به مراکز فروش فرستاده می شوند یکی از انواع سایت های بسیار رایج تولید تعیین ضمانت نامه با دوره و زمان ثابت و مشخص می باشد . در این زمان کارخانجات و بنگاههای تولیدی اقلام خراب را به صورت مجانی تعویض یا تعمیر می کنند. به طور کلی یک مشتری در مورد کیفیت یک محصول جددی نامطمین و مردد خواهد بود ودر نتیجه یک ضمانت نامه ی خوب اطمنیان و اعتماد مشتری را می گیرد سابقه ت...

15 صفحه اول

تنظیم و کاربرد الگوریتم جنگل تصادفی در ارزیابی ژنومی

One of the most important issues in genomic selection is using a decent method for estimating marker effects and genomic evaluation. Recently, machine learning algorithms which are members of non-parametric and non-linear methods have been extended to genomic evaluation. One of these methods is Random Forest (RF) on which this research was focused. Important parameters in RF algorithm are the n...

full text

مدل‌سازی تصادفی بار رسوب با استفاده از جنگل تصادفی و رگرسیون چندک

سابقه و هدف: ارزیابی بار معلق رسوبی رودخانه‌ها بسیار مهم است. کیفیت آب رودخانه‌ها و محیط‌زیست تحت تأثیر بار رسوب می‌باشد. همچنین طراحی سازه‌های هیدرولیکی و سایر تأسیسات آبرسانی، مدیریت حوزه آبخیز و اجرای برنامه‌های حفاظت خاک و مشکلات عمده‌ی دیگر ناشی از آورد رسوب رودخانه‌ها به تخمین صحیح بار رسوب وابسته است. از آنجایی که برآورد مستقیم بار رسوبی بسیار دشوار و وقت‌گیر است، لذا این امر سبب شد محقق...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


Journal title

volume 22  issue 136

pages  109- 118

publication date 2015-10

By following a journal you will be notified via email when a new issue of this journal is published.

Keywords

No Keywords

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023