Clustering dynamique d'un flot de données: un algorithme incrémental et optimal de détection des maxima de densité
نویسنده
چکیده
Résumé. L’extraction non supervisée et incrémentale de classes sur un flot de données (data stream clustering) est un domaine en pleine expansion. La plupart des approches visent l’efficacité informatique. La nôtre, bien que se prêtant à un passage à l’échelle en mode distribué, relève d’une problématique qualitative, applicable en particulier au domaine de la veille informationnelle : faire apparaître les évolutions fines, les « signaux faibles », à partir des thématiques extraites d’un flot de documents. Notre méthode GERMEN localise de façon exhaustive les maxima du paysage de densité des données à l’instant t, en identifiant les perturbations locales du paysage à t-1 et modifications de frontières induites par le document présenté. Son caractère optimal provient de son exhaustivité (à une valeur du paramètre de localité correspond un ensemble unique de maxima, et un découpage unique des classes qui la rend indépendante de tout paramètre d’initialisation et de l’ordre des données.
منابع مشابه
Classification dynamique d'un flux documentaire : une évaluation statique préalable de l'algorithme GERMEN
Data-stream clustering is an ever-expanding subdomain of knowledge extraction. Most of the past and present research effort aims at efficient scaling up for the huge data repositories. Our approach focuses on qualitative improvement, mainly for “weak signals” detection and precise tracking of topical evolutions in the framework of information watch – though scalability is intrinsically guarante...
متن کاملVers un algorithme multi-agents de clustering dynamique
Résumé. Dans cet article, nous présentons un algorithme multi-agents de clustering dynamique. Ce type de clustering doit permettre de gérer des données évolutives et donc être capable d’adapter en permanence les clusters construits. Tout d’abord sont présentées des applications potentielles de cette technique notamment pour aider à la détection d’organisations d’agents dans les SMA. Puis les co...
متن کاملSVM incrémental et parallèle sur GPU
Résumé. Nous présentons un nouvel algorithme incrémental et parallèle de Séparateur à Vaste Marge (SVM ou Support Vector Machine) pour la classification de très grands ensembles de données en utilisant le processeur de la carte graphique (GPUs, Graphics Processing Units). Les SVMs et les méthodes de noyaux permettent de construire des modèles avec une bonne précision mais ils nécessitent habitu...
متن کاملUn algorithme incrémental dirigé par les flots et basé sur les contraintes pour l'aide à la localisation d'erreurs
Dans cet exposé, nous présentons notre algorithme amélioré [1] de localisation d’erreurs à partir de contreexemples, LocFaults, basé sur la programmation par contraintes et dirigé par les flots. Cet algorithme analyse les chemins du CFG (Control Flow Graph) du programme erroné pour calculer les sous-ensembles d’instructions suspectes permettant de corriger le programme. En effet, nous générons ...
متن کاملDétection de clefs pour l'interconnexion et le nettoyage de jeux de données
Résumé : Cet article propose une méthode d’analyse de jeux de données du Web publiés en RDF basée sur les dépendances de clefs. Ce type particulier de dépendances fonctionnelles, largement étudié dans la théorie des bases de données, permet d’évaluer si un ensemble de propriétés constitue une clef pour l’ensemble de données considéré. Si c’est le cas, il n’y aura alors pas deux instances posséd...
متن کامل