Bordure statistique pour la fouille incrémentale de données dans les Data Streams
نویسندگان
چکیده
Résumé. Récemment la communauté Extraction de Connaissances s’est intéressée à de nouveaux modèles où les données arrivent séquentiellement sous la forme d’un flot rapide et continu, i.e. les data streams. L’une des particularités importantes de ces flots est que seule une quantité d’information partielle est disponible au cours du temps. Ainsi après différentes mises à jour successives, il devient indispensable de considérer l’incertitude inhérente à l’information retenue. Dans cet article, nous introduisons une nouvelle approche statistique en biaisant les valeurs supports pour les motifs fréquents. Cette dernière a l’avantage de maximiser l’un des deux paramètres (précision ou rappel) déterminés par l’utilisateur tout en limitant la dégradation sur le paramètre non choisi. Pour cela, nous définissons les notions de bordures statistiques. Celles-ci constituent les ensembles de motifs candidats qui s’avèrent très pertinents à utiliser dans le cas de la mise à jour incrémentale des streams. Les différentes expérimentations effectuées dans le cadre de recherche de motifs séquentiels ont montré l’intérêt de l’approche et le potentiel des techniques utilisées.
منابع مشابه
Classification incrémentale supervisée : un panel introductif
Résumé. Les dix dernières années ont été témoin du grand progrès réalisé dans le domaine de l’apprentissage statistique et de la fouille de données. Il est possible à présent de trouver des algorithmes d’apprentissage efficaces et automatiques. Historiquement les méthodes d’apprentissage faisaient l’hypothèse que toutes les données étaient disponibles et pouvaient être chargées en mémoire pour ...
متن کاملSPAMS: Une nouvelle approche incrémentale pour l'extraction de motifs séquentiels fréquents dans les data streams
Résumé. L’extraction de motifs séquentiels fréquents dans les data streams est un enjeu important traité par la communauté des chercheurs en fouille de données. Plus encore que pour les bases de données, de nombreuses contraintes supplémentaires sont à considérer de par la nature intrinsèque des streams. Dans cet article, nous proposons un nouvel algorithme en une passe : SPAMS, basé sur la con...
متن کاملExtraction de motifs séquentiels dans les flots de données d'usage du Web
Résumé. Ces dernières années, de nouvelles contraintes sont apparues pour les techniques de fouille de données. Ces contraintes sont typiques d’un nouveau genre de données : les “data streams”. Dans un processus de fouille appliqué sur un data stream, l’utilisation de la mémoire est limitée, de nouveaux éléments sont générés en permanence et doivent être traités le plus rapidement possible, auc...
متن کاملLe FIA: un nouvel automate permettant l'extraction efficace d'itemsets fréquents dans les flots de données
Résumé. Nous présentons dans cet article un nouvel automate : le FIA (Frequent Itemset Automaton) pour traiter de façon efficace la problématique de l’extraction des itemsets fréquents dans les flots de données. Le FIA est une structure de données très compacte et informative qui présente également des propriétés incrémentales intéressantes pour les mises à jour avec une granularité très fine. ...
متن کاملTraMineR: une librairie R pour l'analyse de données séquentielles
TraMineR est une librairie pour l'environnement statistique R destinée à la fouille, la description et la visualisation de séquences d'états ou d'événements, et plus généralement de données séquentielles discrètes. La librairie est librement disponible sur le CRAN http://cran.r-project.org. Elle est principalement conçue pour l'analyse de données biographiques longitu-dinales dans le domaine de...
متن کامل