Extraction automatique de champs numériques dans des documents manuscrits
نویسندگان
چکیده
Résumé. Nous décrivons dans cet article une chaine de traitement complète et générique permettant d’extraire automatiquement les champs numériques (numéros de téléphone, codes clients, codes postaux) dans des documents manuscrits libres. Notre chaïne de traitement est constituée des trois étapes suivantes: localisation des champs numériques potentiels selon une approche markovienne sans reconnaissance chiffre ni segmentation, reconnaissance des séquences extraites, et vérification des hypothèses de localisation / reconnaissance en vue de limiter la fausse alarme génerée lors de l’étape de localisation. L’évaluation de notre système sur une base de 300 courriers manuscrits montre des performances en rappel-précision intéressantes.
منابع مشابه
Indexation de Documents Manuscrits
paru dans Proceedings du Colloque International Francophone sur l'Ecrit et le Document (CIFED06), article invité a [email protected] b Ecole Polytechnique Fédérale de Lausanne (EPFL)-1015 Lausanne (Switzerland) paru dans Proceedings du Colloque International Francophone sur l'Ecrit et le Document (CIFED06), article invité Résumé. Les systèmes de reconnaissance automatique de...
متن کاملUn modèle de bibliothèque numérique collaborative - ARMARIUS
RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manusc...
متن کاملApprentissage supervisé pour la catégorisation de documents manuscrits en-ligne
RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne e...
متن کاملIdentification of Arabic/French Handwritten/Printed Words using GMM-Based System
The discrimination between languages is one of the first steps in the problem of automatic documents text recognition. In many documents, such as bank checks and application forms, printed and handwritten texts are mixed. In this paper, an automatic identification system of Arabic and French words in both handwritten and printed script based on Gaussian Mixture Models (GMMs) was presented. A fi...
متن کاملConception d'un outil d'aide à l'indexation de ressources pédagogiques - Extraction automatique des the?matiques et des mots-clefs de documents UNIT
RÉSUMÉ Le Learning Object Metadata (LOM) est le standard incontestable pour l’indexation des ressources pédagogiques. L'indexation de ces ressources en LOM est souvent accomplie manuellement par des documentalistes. Renseigner l’ensemble des champs du LOM d’un document est une tâche difficile et longue, nécessitant habituellement une lecture complète et une connaissance dans le domaine traité. ...
متن کامل