Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents
نویسندگان
چکیده
Résumé. Cet article présente un nouveau modèle de représentation pour la classification de documents XML. Notre approche permet de prendre en compte soit la structure seule, soit la structure et le contenu de ces documents. L’idée est de représenter un document par l’ensemble des sous-chemins de l’arbre XML de longueur comprise entre n et m, deux valeurs fixées a priori. Ces chemins sont ensuite considérés comme de simples mots sur lesquels on peut appliquer des méthodes standards de classification, par exemple K-means. Nous évaluons notre méthode sur deux collections: la collection INEX et les rapports d’activité de l’INRIA. Nous utilisons un ensemble de mesures bien connues dans le domaine de la recherche d’information lorsque les classes sont connues a priori. Lorsqu’elles ne sont pas connues, nous proposons une analyse qualitative des résultats qui s’appuie sur les mots (chemins) les plus caractéristiques des classes générées.
منابع مشابه
Expériences de classification d'une collection de documents XML de structure homogène
Résumé. Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d’expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des élém...
متن کاملClassification Automatique Non supervisée de Documents Textuels basés sur Wordnet
Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...
متن کاملUne représentation des arborescences pour la recherche de sous-structures fréquentes
Résumé. La recherche de structures fréquentes au sein de données arborescentes est une problématique actuellement très active qui trouve de nombreux intérêts dans le contexte de la fouille de données comme, par exemple, la construction automatique d’un schéma médiateur à partir de schémas XML. Dans ce contexte, de nombreuses propositions ont été réalisées mais les méthodes de représentation des...
متن کاملEnrichissement sémantique de documents XML représentant des tableaux
Résumé. Ce travail a pour objectif la construction automatique d’un entrepôt thématique de données, à partir de documents de format divers provenant du Web. L’exploitation de cet entrepôt est assurée par un moteur d’interrogation fondé sur une ontologie. Notre attention porte plus précisément sur les tableaux extraits de ces documents et convertis au format XML, aux tags exclusivement syntaxiqu...
متن کاملPropositions pour la recherche contextuelle d'images dans des documents XML
RÉSUMÉ. Cet article s’inscrit dans le cadre de la recherche d’images dans des documents XML. Ce type de recherche peut utiliser des informations sémantiques en plus des informations visuelles de l’image. Nous nous proposons ici d’explorer des pistes pour la recherche de ces informations sémantiques au sein des documents XML, en supposant qu’une image peut être présentée par les autres éléments ...
متن کامل