Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents

نویسندگان

Anne-Marie Vercoustre

Mounir Fegas

Yves Lechevallier

Thierry Despeyroux

چکیده

Résumé. Cet article présente un nouveau modèle de représentation pour la classification de documents XML. Notre approche permet de prendre en compte soit la structure seule, soit la structure et le contenu de ces documents. L’idée est de représenter un document par l’ensemble des sous-chemins de l’arbre XML de longueur comprise entre n et m, deux valeurs fixées a priori. Ces chemins sont ensuite considérés comme de simples mots sur lesquels on peut appliquer des méthodes standards de classification, par exemple K-means. Nous évaluons notre méthode sur deux collections: la collection INEX et les rapports d’activité de l’INRIA. Nous utilisons un ensemble de mesures bien connues dans le domaine de la recherche d’information lorsque les classes sont connues a priori. Lorsqu’elles ne sont pas connues, nous proposons une analyse qualitative des résultats qui s’appuie sur les mots (chemins) les plus caractéristiques des classes générées.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Expériences de classification d'une collection de documents XML de structure homogène

Résumé. Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d’expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des élém...

متن کامل

Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet

Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...

متن کامل

Une représentation des arborescences pour la recherche de sous-structures fréquentes

Résumé. La recherche de structures fréquentes au sein de données arborescentes est une problématique actuellement très active qui trouve de nombreux intérêts dans le contexte de la fouille de données comme, par exemple, la construction automatique d’un schéma médiateur à partir de schémas XML. Dans ce contexte, de nombreuses propositions ont été réalisées mais les méthodes de représentation des...

متن کامل

Enrichissement sémantique de documents XML représentant des tableaux

Résumé. Ce travail a pour objectif la construction automatique d’un entrepôt thématique de données, à partir de documents de format divers provenant du Web. L’exploitation de cet entrepôt est assurée par un moteur d’interrogation fondé sur une ontologie. Notre attention porte plus précisément sur les tableaux extraits de ces documents et convertis au format XML, aux tags exclusivement syntaxiqu...

متن کامل

Propositions pour la recherche contextuelle d'images dans des documents XML

RÉSUMÉ. Cet article s’inscrit dans le cadre de la recherche d’images dans des documents XML. Ce type de recherche peut utiliser des informations sémantiques en plus des informations visuelles de l’image. Nous nous proposons ici d’explorer des pistes pour la recherche de ces informations sémantiques au sein des documents XML, en supposant qu’une image peut être présentée par les autres éléments ...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2006

Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents

نویسندگان

چکیده

منابع مشابه

Expériences de classification d'une collection de documents XML de structure homogène

Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet

Une représentation des arborescences pour la recherche de sous-structures fréquentes

Enrichissement sémantique de documents XML représentant des tableaux

Propositions pour la recherche contextuelle d'images dans des documents XML

عنوان ژورنال:

اشتراک گذاری