Motifs séquentiels et approximation des valeurs manquantes
نویسنده
چکیده
RÉSUMÉ. Les bases de données issues du monde réel contiennent souvent de nombreuses informations non renseignées. Durant le processus d’extraction de connaissances dans les bases de données, une phase de traitement spécifique de ces données est souvent nécessaire, permettant de les supprimer ou de les compléter. Plus particulièrement lors de l’extraction de séquences fréquentes, ces données incomplètes sont la plupart du temps supprimées. Ceci conduit parfois à l’élimination de plus de la moitié de la base et l’information extraite n’est plus représentative. Nous proposons donc d’estimer la présence d’un item dans une transaction incomplète en modélisant celle-ci par une distribution de valeurs. Le degré d’appartenance indique alors pour chaque item à quel point il peut appartenir à la transaction. On tient ensuite compte de l’estimation par distribution lors du calcul de la fréquence d’apparition de chaque séquence. Pour cela, nous avons conçu un algorithme qui a été implémenté. Nous présentons ici les résultats de nos expérimentations.
منابع مشابه
Motifs séquentiels multidimensionnels étoilés
L’extraction de motifs séquentiels est un domaine de la fouille de données permettant de rechercher des corrélations fréquentes entre des valeurs en prenant en compte leur chronologie d’apparition. Dans le contexte du panier de la ménagère, ce type de méthodes permet par exemple l’extraction de règles de la forme 〈(TV,DV D)(magneto numerique)〉, indiquant qu’un nombre suffisamment important (au ...
متن کاملUtilisation de règles d'association pour la prédiction de valeurs manquantes
Résumé. Le traitement des valeurs manquantes est une problématique importante dans le domaine des entrepôts de données. Plusieurs solutions ont été proposées pour la prédiction de valeurs manquantes, présentant les caractéristiques suivantes : (i) la prédiction traite soit des valeurs continues soit des valeurs discrètes, et (ii) la prédiction est approximative (soit elle est associée à une pro...
متن کاملFouille de Données Multidimensionnelles : Différentes Stratégies pour Prendre en Compte la Mesure
Résumé. Les entrepôts de données contiennent de gros volumes de données historisées stockées à des fins d’analyse. Des techniques d’extraction de motifs séquentiels multidimensionnels ont été développées afin de mettre en exergue des corrélations entre des positions sur des dimensions au cours du temps. Même si ces méthodes offrent une meilleure appréhension des données sources en prenant en co...
متن کاملTraitement Des Donnees Manquantes Au Moyen De L'Algorithme De Kohonen
Le traitement des données avec observations manquantes est un problème concret et toujours embarrassant lorsqu’il s’agit de données réelles. En effet dans les applications, on est très souvent en présence d’observations pour lesquelles on ne dispose pas de l’ensemble des valeurs des variables descriptives, et ceci se produit pour de nombreuses raisons : erreurs de saisie, rubriques non renseign...
متن کاملExtraction de propriétés correctes dans des bases de données incomplètes
Résumé : Les valeurs manquantes dans les bases de données posent de nombreuses difficultés lors de processus d’extraction de connaissances et les propriétés extraites sont parfois incorrectes. Nous proposons à l’aide de calculs menés dans une base incomplète de caractériser des propriétés de la base complète dont la base de calcul est issue. Les propriétés de k-liberté sont étudiées, elles sont...
متن کامل