Méthode d'apprentissage pour la conversion automatique de documents structurés
نویسندگان
چکیده
Résumé : De plus en plus de sociétés désirent moderniser leur système de gestion de fond documentaire. Le problème qui se pose à ces entreprises concerne la migration de leurs documents vers un format plus ouvert et offrant plus de possibilités. La tâche de conversion est rendue difficile d’une part à cause de la grande hétérogénéité des documents et d’autre part à cause du très grand volume de données à traiter. Dans ce papier nous présentons une approche permettant de réaliser des conversions de documents orientés présentation vers des documents sémantiques. L’intérêt de la méthode consiste à automatiser le processus de conversion en utilisant des techniques d’apprentissage supervisé pour découvrir des règles de transformations applicables pour une collection de documents. Nous décomposons la conversion en deux étapes pour simplifier le problème, une première étape d’annotation sémantique des éléments textuels du document d’origine et une seconde étape qui consiste à faire émerger la structure sémantique du document en respectant une grammaire cible qui décrit le langage à utiliser pour les documents finaux. L’approche est probabiliste pour permettre une plus grande robustesse.
منابع مشابه
Une approche multi-agent adaptative pour la simulation de schémas tactiques
Résumé. Ce papier est consacré à la simulation ou à la réalisation automatique de schémas tactiques par un groupe d ́agents footballeurs autonomes. Son objectif est de montrer ce que peuvent apporter des techniques d'apprentissage par renforcement à des agents réactifs conçus pour cette tâche. Dans un premier temps, nous proposons une plateforme et une architecture d'agents capable d'effectuer d...
متن کاملExploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe
RÉSUMÉ. Les documents manuscrits arabes présentent des défis spécifiques pour la reconnaissance du fait de la nature de l'écriture cursive et d'autres facteurs, comme la taille de l'écriture. Une des plus grandes bases étiquetées des documents manuscrits arabes, la base de données NISTOpenHaRT inclut de grandes variabilités dans la taille du texte inter et intra mots et lignes. Nous proposons ...
متن کاملKhiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables
Résumé. Khiops est un outil d’apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. L’importance prédictive des variables est évaluée au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel. Dans le cas d’une base multi-tables, par exemple des clients avec leurs achats, une table d’analyse individus ×...
متن کاملClassification automatique de courriers électroniques par des méthodes mixtes d'apprentissage
RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels...
متن کاملAlgorithmes de Generation automatique Experience de Generation des Phrases simples du Francais
Dans ce travail on expose un algorithme i de g~n~ration automatique, dont le but est: A ) De connaltre la capacit~ g~n~rative de la syntaxe obtenue dans l'exp6rience d'apprentissage automatique d~crite ~ afro d'~valuer son degr~ d'~labortion par rapport ~t la langue en gdndral. B) De construire certaines &apes importantes de l'automatisation des processus de traduction. C) De construire tin sys...
متن کامل