Un critère d'évaluation pour la sélection de variables
نویسندگان
چکیده
Résumé. Cet article aborde le problème de la sélection de variables dans le cadre de la classification supervisée. Les méthodes de sélection reposent sur un algorithme de recherche et un critère d’évaluation pour mesurer la pertinence des sous-ensembles potentiels de variables. Nous présentons un nouveau critère d’évaluation fondé sur une mesure d’ambigüıté. Cette mesure est fondée sur une combinaison d’étiquettes représentant le degré de spécificité ou d’appartenance aux classes en présence. Les tests menés sur de nombreux jeux de données réels et artificiels montrent que notre méthode est capable de sélectionner les variables pertinentes et d’augmenter dans la plupart des cas les taux de bon classement.
منابع مشابه
Sélection de variables non supervisée sous contraintes hiérarchiques
Résumé. La sélection des variables a un rôle très important dans la fouille de données lorsqu’un grand nombre de variables est disponible. Ainsi, certaines variables peuvent être peu significatives, corrélées ou non pertinentes. Une méthode de sélection a pour objectif de mesurer la pertinence d’un ensemble utilisant principalement un critère d’évaluation. Nous présentons dans cet article un cr...
متن کاملUn Critère d'Évaluation pour la Construction de Variables à base d'Itemsets pour l'Apprentissage Supervisé Multi-Tables
Résumé. Dans le contexte de la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement liés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Dans cet article, nous proposons un Framework basé sur des itemsets pour la construction de variables à partir des tables ...
متن کاملSélection par entropie de descripteurs textuels pour la catégorisation de documents XML
Dans le contexte de la catégorisation de documents, la sélection des descripteurs est une étape de pré-traitement importante qui permet non seulement de réduire la taille de l’index, mais aussi d’améliorer les performances des classifieurs. Parmi les approches utilisées pour construire un sous-ensemble de l’index, on peut distinguer d’une part, les méthodes de réduction de dimensions qui génère...
متن کاملA non asymptotic penalized criterion for Gaussian mixture model selection
Specific Gaussian mixtures are considered to solve simultaneously variable selection and clustering problems. A non asymptotic penalized criterion is proposed to choose the number of mixture components and the relevant variable subset. Because of the non linearity of the associated Kullback-Leibler contrast on Gaussian mixtures, a general model selection theorem for MLE proposed by Massart (200...
متن کاملVariable selection in model-based clustering: A general variable role modeling
The currently available variable selection procedures in model-based clustering assume that the irrelevant clustering variables are all independent or are all linked with the relevant clustering variables. We propose a more versatile variable selection model which describes three possible roles for each variable: The relevant clustering variables, the irrelevant clustering variables dependent o...
متن کامل