Suppression des Itemsets Clés Non-Essentiels en Classification basée sur les Règles d'Association
نویسنده
چکیده
Résumé. En classification basée sur les règles d’association, les itemsets clés sont essentiels : la suppression des itemsets non clés n’affecte pas la précision du classifieur en construction. Ce travail montre que parmi ces itemsets clés, on peut s’intéresser seulement à ceux de petites tailles. Plus loin encore, il étudie une généralisation d’une propriété importante des itemsets non clés et montre que parmi les itemsets clés de petites tailles, il y a ceux qui ne sont pas significatifs pour la classification. Ces itemsets clés sont dits non essentiels. Ils sont définis via un test de χ. Les expériences menées sur les grands jeux de données montrent que l’optimisation par la suppression de ces itemsets est correcte et efficace.
منابع مشابه
Contrôle du risque multiple pour la sélection de règles d'association significatives
Résumé. Les algorithmes d'extraction de règles d'association parcourent e cacement le treillis des itemsets pour constituer une base de règles admissibles à des seuils de support et de con ance, mais donnent une multitude de règles peu exploitables. Nous suggérons d'épurer de telles bases en éliminant les règles non statistiquement signi catives. La multitude de tests pratiqués conduit mécaniqu...
متن کاملUtilisation de règles d'association pour la prédiction de valeurs manquantes
Résumé. Le traitement des valeurs manquantes est une problématique importante dans le domaine des entrepôts de données. Plusieurs solutions ont été proposées pour la prédiction de valeurs manquantes, présentant les caractéristiques suivantes : (i) la prédiction traite soit des valeurs continues soit des valeurs discrètes, et (ii) la prédiction est approximative (soit elle est associée à une pro...
متن کاملIntégration de règles d'association pour améliorer la recherche d'informations XML
RÉSUMÉ. La reformulation de requêtes constitue un moyen d’améliorer la recherche d’informations, en particulier lorsque cela concerne des documents XML. Les approches existantes se basent sur une connaissance du domaine (thésaurus, ontologie) pour étendre la requête initiale. Nous proposons une approche de reformulation automatique basée sur une technique de datamining. Nous intégrons les règle...
متن کاملLes itemsets essentiels fermés : une nouvelle représentation concise
Résumé. Devant l’accroissement constant des grandes bases de données, plusieurs travaux de recherche en fouille de données s’orientent vers le développement de techniques de représentation compacte. Ces recherches se développent suivant deux axes complémentaires : l’extraction de bases génériques de règles d’association et l’extraction de représentations concises d’itemsets fréquents. Dans ce p...
متن کاملComparaison des mesures d'intérêt de règles d'association : une approche basée sur des graphes de corrélation
Résumé. Le choix des mesures d’intérêt (MI) afin d’évaluer les règles d’association est devenu une question importante pour le post-traitement des connaissance en ECD. Dans la littérature, de nombreux auteurs ont discuté et comparé les propriétés des MI afin d’améliorer le choix des meilleures mesures. Cependant, il s’avère que la qualité d’une règle est contextuelle : elle dépend à la fois de ...
متن کامل