Bordure statistique pour la fouille incrémentale de données dans les Data Streams

نویسندگان

  • Jean-Emile Symphor
  • Pierre-Alain Laur
چکیده

Résumé. Récemment la communauté Extraction de Connaissances s’est intéressée à de nouveaux modèles où les données arrivent séquentiellement sous la forme d’un flot rapide et continu, i.e. les data streams. L’une des particularités importantes de ces flots est que seule une quantité d’information partielle est disponible au cours du temps. Ainsi après différentes mises à jour successives, il devient indispensable de considérer l’incertitude inhérente à l’information retenue. Dans cet article, nous introduisons une nouvelle approche statistique en biaisant les valeurs supports pour les motifs fréquents. Cette dernière a l’avantage de maximiser l’un des deux paramètres (précision ou rappel) déterminés par l’utilisateur tout en limitant la dégradation sur le paramètre non choisi. Pour cela, nous définissons les notions de bordures statistiques. Celles-ci constituent les ensembles de motifs candidats qui s’avèrent très pertinents à utiliser dans le cas de la mise à jour incrémentale des streams. Les différentes expérimentations effectuées dans le cadre de recherche de motifs séquentiels ont montré l’intérêt de l’approche et le potentiel des techniques utilisées.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Classification incrémentale supervisée : un panel introductif

Résumé. Les dix dernières années ont été témoin du grand progrès réalisé dans le domaine de l’apprentissage statistique et de la fouille de données. Il est possible à présent de trouver des algorithmes d’apprentissage efficaces et automatiques. Historiquement les méthodes d’apprentissage faisaient l’hypothèse que toutes les données étaient disponibles et pouvaient être chargées en mémoire pour ...

متن کامل

SPAMS: Une nouvelle approche incrémentale pour l'extraction de motifs séquentiels fréquents dans les data streams

Résumé. L’extraction de motifs séquentiels fréquents dans les data streams est un enjeu important traité par la communauté des chercheurs en fouille de données. Plus encore que pour les bases de données, de nombreuses contraintes supplémentaires sont à considérer de par la nature intrinsèque des streams. Dans cet article, nous proposons un nouvel algorithme en une passe : SPAMS, basé sur la con...

متن کامل

Extraction de motifs séquentiels dans les flots de données d'usage du Web

Résumé. Ces dernières années, de nouvelles contraintes sont apparues pour les techniques de fouille de données. Ces contraintes sont typiques d’un nouveau genre de données : les “data streams”. Dans un processus de fouille appliqué sur un data stream, l’utilisation de la mémoire est limitée, de nouveaux éléments sont générés en permanence et doivent être traités le plus rapidement possible, auc...

متن کامل

Le FIA: un nouvel automate permettant l'extraction efficace d'itemsets fréquents dans les flots de données

Résumé. Nous présentons dans cet article un nouvel automate : le FIA (Frequent Itemset Automaton) pour traiter de façon efficace la problématique de l’extraction des itemsets fréquents dans les flots de données. Le FIA est une structure de données très compacte et informative qui présente également des propriétés incrémentales intéressantes pour les mises à jour avec une granularité très fine. ...

متن کامل

TraMineR: une librairie R pour l'analyse de données séquentielles

TraMineR est une librairie pour l'environnement statistique R destinée à la fouille, la description et la visualisation de séquences d'états ou d'événements, et plus généralement de données séquentielles discrètes. La librairie est librement disponible sur le CRAN http://cran.r-project.org. Elle est principalement conçue pour l'analyse de données biographiques longitu-dinales dans le domaine de...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006