Méthode d'apprentissage pour la conversion automatique de documents structurés

نویسندگان

  • Jérôme Fuselier
  • Boris Chidlovskii
  • Jean-Charles Marty
  • Alexandre Vautier
  • Sylvie Sage
چکیده

Résumé : De plus en plus de sociétés désirent moderniser leur système de gestion de fond documentaire. Le problème qui se pose à ces entreprises concerne la migration de leurs documents vers un format plus ouvert et offrant plus de possibilités. La tâche de conversion est rendue difficile d’une part à cause de la grande hétérogénéité des documents et d’autre part à cause du très grand volume de données à traiter. Dans ce papier nous présentons une approche permettant de réaliser des conversions de documents orientés présentation vers des documents sémantiques. L’intérêt de la méthode consiste à automatiser le processus de conversion en utilisant des techniques d’apprentissage supervisé pour découvrir des règles de transformations applicables pour une collection de documents. Nous décomposons la conversion en deux étapes pour simplifier le problème, une première étape d’annotation sémantique des éléments textuels du document d’origine et une seconde étape qui consiste à faire émerger la structure sémantique du document en respectant une grammaire cible qui décrit le langage à utiliser pour les documents finaux. L’approche est probabiliste pour permettre une plus grande robustesse.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Une approche multi-agent adaptative pour la simulation de schémas tactiques

Résumé. Ce papier est consacré à la simulation ou à la réalisation automatique de schémas tactiques par un groupe d ́agents footballeurs autonomes. Son objectif est de montrer ce que peuvent apporter des techniques d'apprentissage par renforcement à des agents réactifs conçus pour cette tâche. Dans un premier temps, nous proposons une plateforme et une architecture d'agents capable d'effectuer d...

متن کامل

Exploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe

RÉSUMÉ. Les documents manuscrits arabes présentent des défis spécifiques pour la reconnaissance du fait de la nature de l'écriture cursive et d'autres facteurs, comme la taille de l'écriture. Une des plus grandes bases étiquetées des documents manuscrits arabes, la base de données NIST­OpenHaRT inclut de grandes variabilités dans la taille du texte inter et intra mots et lignes. Nous proposons ...

متن کامل

Khiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables

Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...

متن کامل

Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels...

متن کامل

Algorithmes de Generation automatique Experience de Generation des Phrases simples du Francais

Dans ce travail on expose un algorithme i de g~n~ration automatique, dont le but est: A ) De connaltre la capacit~ g~n~rative de la syntaxe obtenue dans l'exp6rience d'apprentissage automatique d~crite ~ afro d'~valuer son degr~ d'~labortion par rapport ~t la langue en gdndral. B) De construire certaines &apes importantes de l'automatisation des processus de traduction. C) De construire tin sys...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005