Le FIA: un nouvel automate permettant l'extraction efficace d'itemsets fréquents dans les flots de données
نویسندگان
چکیده
Résumé. Nous présentons dans cet article un nouvel automate : le FIA (Frequent Itemset Automaton) pour traiter de façon efficace la problématique de l’extraction des itemsets fréquents dans les flots de données. Le FIA est une structure de données très compacte et informative qui présente également des propriétés incrémentales intéressantes pour les mises à jour avec une granularité très fine. L’algorithme développé pour la mise à jour du FIA effectue un unique passage sur les données qui sont prises en compte tout d’abord par batch, i.e. itemset par itemset, puis pour chaque itemset, item par item. Nous montrons que dans le cadre d’une approche prédictive et par l’intermédiaire de la bordure statistique, le FIA permet d’indexer les itemsets véritablement fréquents du flot en maximisant le rappel et en fournissant à tout moment une information sur la pertinence statistique des itemsets indexés avec la P -valeur.
منابع مشابه
FIASCO : un nouvel algorithme d'extraction d'itemsets fréquents dans les flots de données
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملSPAMS: Une nouvelle approche incrémentale pour l'extraction de motifs séquentiels fréquents dans les data streams
Résumé. L’extraction de motifs séquentiels fréquents dans les data streams est un enjeu important traité par la communauté des chercheurs en fouille de données. Plus encore que pour les bases de données, de nombreuses contraintes supplémentaires sont à considérer de par la nature intrinsèque des streams. Dans cet article, nous proposons un nouvel algorithme en une passe : SPAMS, basé sur la con...
متن کاملLes itemsets essentiels fermés : une nouvelle représentation concise
Résumé. Devant l’accroissement constant des grandes bases de données, plusieurs travaux de recherche en fouille de données s’orientent vers le développement de techniques de représentation compacte. Ces recherches se développent suivant deux axes complémentaires : l’extraction de bases génériques de règles d’association et l’extraction de représentations concises d’itemsets fréquents. Dans ce p...
متن کاملExtraction d'itemsets compacts
Résumé. L’extraction d’itemsets fréquents est un sujet majeur de l’ECD et son but est de découvrir des corrélations entre les enregistrements d’un ensemble de données. Cependant, le support est calculé en fonction de la taille de la base dans son intégralité. Dans cet article, nous montrons qu’il est possible de prendre en compte des périodes difficiles à déceler dans l’organisation des données...
متن کاملTLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes
Résumé. L’analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d’opérateurs d’analyse appropriés aux données textuelles. En effet, les opérateurs d’agrégation classiques ont montré leur efficacité pour l’analyse en ligne des données numériques, mais ils sont inadaptés pour l’analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateu...
متن کامل