Un modèle statistique pour la classification de documents structurés

نویسندگان

  • Huyen-Trang Vu
  • Ludovic Denoyer
  • Patrick Gallinari
چکیده

: We present a learning model for categorization of structured documents that takes into account both structural information and textual information. We first define a generative model of structured documents using belief networks. Then we transform the generative model into a discriminant one using the Fisher kernel. Finally, we describe an instance of this model applied to the categorization of HTML documents. The experimental application to a classical corpus shows that the use of structural information outperforms other classical models. Le développement du document électronique et du Web ont vu émerger puis s'imposer des formats de données structurés, tels que le SGML et le HTML, permettant de représenter l'information sous une forme plus riche que le simple contenu et adaptée à des besoins spécifiques. Aujourd’hui, des propositions de format comme RdF et des langages de descriptions comme XML sont en train de s’imposer. Ces nouveaux formats permettent de représenter conjointement l’information textuelle et l’information de structure d’un document. A coté de cela, les modèles classiques de recherche d’information et de classification de documents ont été principalement conçus pour traiter des documents plats sans prendre en compte d'aucune manière les informations de structure. En classification de documents qui est le sujet de cet article, la structure du document joue un rôle important. D'une part les mots n'auront pas le même rôle ni la même importance suivant leur place dans le document (titre, mots clé, profondeur, méta-donnée, etc). D'autre part, des documents complexes peuvent appartenir à une classe même si une seule de leurs composantes est pertinente pour cette classe, or, cette information est souvent noyée dans les codages classiques. Quelques travaux commencent cependant à aborder ce problème. Nous nous intéressons ici à la classification de documents structurés avec prise en compte simultanée du contenu et de la structure et proposons deux modèles originaux pour cela. Le premier est un modèle génératif qui utilise le formalisme des réseaux Bayésiens. En 2 Nom de la Revue. Volume X – n° X/2000 s'appuyant sur ce premier modèle, nous construisons ensuite un modèle discriminant en utilisant la technique du noyau de Fisher. L'article est organisé comme suit. Nous faisons tout d'abord un état de l'art sur la classification de documents structurés. Ensuite, nous introduisons la notion de structure de document et proposons un modèle génératif associé à cette structure. Nous montrons ensuite comment créer à partir de ce modèle génératif un modèle discriminant à l’aide du noyau de Fisher. Enfin, nous présentons une série d'expériences sur une base de données de référence. Nous montrons que les deux méthodes utilisant la structure permettent une diminution des erreurs de classification par rapport aux modèles classiques qui travaillent sur des représentations plates, puis nous discutons les perspectives des modèles présentés.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Restructuration automatique de documents dans les corpus semi-structurés hétérogènes

Résumé. L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consi...

متن کامل

Modèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques

RÉSUMÉ. Cet article s’intéresse à l’indexation des données ayant une sémantique pauvre dans des documents structurés. Le but est d’exploiter le contenu des données symboliques avoisinantes afin d’en extraire les fragments adéquats pour compléter l’indexation de la donnée non symbolique. Cette approche a été abordée dans le cadre concret d’une application dans un contexte professionnel : indexer...

متن کامل

Statistical learning for image-based personalization of cardiac models. (Apprentissage statistique pour la personnalisation de modèles cardiaques à partir de données d'imagerie)

Cette thèse porte sur un problème de calibration d’un modèle électromécanique de cœur, personnalisé à partir de données d’imagerie médicale 3D + t ; et sur celui — en amont — de suivi du mouvement cardiaque. Les perspectives à long terme de la simulation personnalisée de la fonction cardiaque incluent l’aide au diagnostic et à la planification de thérapie, ainsi que la prévention des risques ca...

متن کامل

Modèle probabiliste pour l'extraction de structures dans les documents web

RÉSUMÉ. Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applica...

متن کامل

Un modèle d'espace vectoriel de concepts pour noyaux sémantiques

Résumé. Les noyaux ont été largement utilisés pour le traitement de données textuelles comme mesure de similarité pour des algorithmes tels que les Séparateurs à Vaste Marge (SVM). Le modèle de l’espace vectoriel (VSM) a été amplement utilisé pour la représentation spatiale des documents. Cependant, le VSM est une représentation purement statistique. Dans ce papier, nous présentons un modèle d’...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2003