Modèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques

نویسندگان

  • Leïla Kefi
  • Catherine Berrut
  • Éric Gaussier
چکیده

RÉSUMÉ. Cet article s’intéresse à l’indexation des données ayant une sémantique pauvre dans des documents structurés. Le but est d’exploiter le contenu des données symboliques avoisinantes afin d’en extraire les fragments adéquats pour compléter l’indexation de la donnée non symbolique. Cette approche a été abordée dans le cadre concret d’une application dans un contexte professionnel : indexer les graphiques des documents techniques en exploitant le texte qui les accompagne. Cette indexation est articulée autour d’un modèle de représentation des graphiques tenant compte de la finalité de leur utilisation et du professionnalisme de leurs usagers, et d’un modèle d’extraction des termes d’indexation à partir du texte du document technique.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Restructuration automatique de documents dans les corpus semi-structurés hétérogènes

Résumé. L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consi...

متن کامل

Annotation formelle graphique de documents multimédia

Résumé : Cet article présente une méthodologie et un atelier de construction graphique de descriptions formelles de documents. Cet atelier est destiné à être intégré dans des applications de gestion de corpus de documents nécessitant l’utilisation d’un processus d’annotation basé sur l’interprétation du contenu des documents (en particulier l’indexation de documents audiovisuels). L’approche pr...

متن کامل

Apprentissage actif pour l'annotation de documents

RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique....

متن کامل

Vers un modèle d'indexation sémantique adapté aux dossiers médicaux de patients

This paper presents a semantic model adapted for the indexing of electronic patient records (EHRs) as a support to the process of finding medical information. Given the specificity of such documents, the indexing is based on the sequence of Natural Language Processing steps: semantic annotation based on the use of the MeSH (Medical Subject Headings) thesaurus, concept disambiguation, extraction...

متن کامل

Un modèle statistique pour la classification de documents structurés

: We present a learning model for categorization of structured documents that takes into account both structural information and textual information. We first define a generative model of structured documents using belief networks. Then we transform the generative model into a discriminant one using the Fisher kernel. Finally, we describe an instance of this model applied to the categorization ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2003