Arbres de décision sur des données de type intervalle : évaluation et comparaison

نویسندگان

  • Chérif Mballo
  • Edwin Diday
چکیده

Résumé. Le critère de découpage binaire de Kolmogorov-Smirnov nécessite un ordre total des valeurs prises par les variables explicatives. Nous pouvons ordonner des intervalles fermés bornés de nombres réels de différentes façons. Notre contribution dans cet article consiste à évaluer et à comparer des arbres de décision obtenus sur des données de type intervalle à l’aide du critère de découpage binaire de Kolmogorov-Smirnov étendu à ce type de données (Mballo et al. 2004). Pour ce faire, nous axons notre attention sur le taux d’erreur mesuré sur l’échantillon de test. Pour estimer ce paramètre, nous divisons aléatoirement chaque base de données en deux parties égales en terme d’effectif (à un objet près) pour construire deux arbres. Ces deux arbres sont d’abord testés par un même échantillon puis par deux échantillons différents.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Évaluation des critères asymétriques pour les arbres de décision

L’apprentissage supervisé sur données déséquilibrées fait l’objet de nombreux travaux (Provost (2000)). Pour le cas des arbres de décision, différents auteurs ont proposé d’utiliser des mesures d’entropie prenant en compte l’asymétrie pour la recherche du meilleur éclatement. Nous avons ainsi proposé une axiomatique permettant de définir une famille de mesures asymétriques (Zighed et al. (2007)...

متن کامل

Un nouvel algorithme de forêts aléatoires d'arbres obliques particulièrement adapté à la classification de données en grandes dimensions

Résumé. L’algorithme des forêts aléatoires proposé par Breiman permet d’obtenir de bons résultats en fouille de données comparativement à de nombreuses approches. Cependant, en n’utilisant qu’un seul attribut parmi un sous-ensemble d’attributs tiré aléatoirement pour séparer les individus à chaque niveau de l’arbre, cet algorithme perd de l’information. Ceci est particulièrement pénalisant avec...

متن کامل

SVM et visualisation pour la fouille de grands ensembles de données

Résumé. Nous présentons un algorithme de SVM et des méthodes graphiques pour le traitement de grands ensembles de données. Pour pouvoir traiter de tels ensembles de données, nous utilisons une représentation des données de plus haut niveau (sous forme symbolique). L’algorithme de séparateur à vaste marge (SVM) est adapté pour pouvoir traiter ce nouveau type de données. Nous construisons un nouv...

متن کامل

Sous-échantillonnage topographique par apprentissage semi-supervisé

Résumé. Plusieurs aspects pourraient influencer les systèmes d’apprentissage existants. Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d’observations appartenant à une classe, dépasse fortement celui des observations dans les autres classes. Dans ce type de cas assez fréquent, le système d’apprentissage a des difficultés au cours de la phase d’entraînement liées au ...

متن کامل

Les index pour les entrepôts de données : comparaison entre index arbre-B et Bitmap

Résumé — Avec le développement des systèmes de décisionnel en générale et les entrepôts de données de manière particulière, il est devenu primordiale d’avoir une visibilité de la conception de l’entrepôt de données avant sa création, et cela vu l’importance de l’entrepôt de données qui se considère la source unique des données donnant sens à la décision. Dans un système de décisionnel, le bon f...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005