Extraction automatique de champs numériques dans des documents manuscrits

نویسندگان

Clément Chatelain

Laurent Heutte

Thierry Paquet

چکیده

Résumé. Nous décrivons dans cet article une chaine de traitement complète et générique permettant d’extraire automatiquement les champs numériques (numéros de téléphone, codes clients, codes postaux) dans des documents manuscrits libres. Notre chaïne de traitement est constituée des trois étapes suivantes: localisation des champs numériques potentiels selon une approche markovienne sans reconnaissance chiffre ni segmentation, reconnaissance des séquences extraites, et vérification des hypothèses de localisation / reconnaissance en vue de limiter la fausse alarme génerée lors de l’étape de localisation. L’évaluation de notre système sur une base de 300 courriers manuscrits montre des performances en rappel-précision intéressantes.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Indexation de Documents Manuscrits

paru dans Proceedings du Colloque International Francophone sur l'Ecrit et le Document (CIFED06), article invité a [email protected] b Ecole Polytechnique Fédérale de Lausanne (EPFL)-1015 Lausanne (Switzerland) paru dans Proceedings du Colloque International Francophone sur l'Ecrit et le Document (CIFED06), article invité Résumé. Les systèmes de reconnaissance automatique de...

متن کامل

Un modèle de bibliothèque numérique collaborative - ARMARIUS

RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manusc...

متن کامل

Apprentissage supervisé pour la catégorisation de documents manuscrits en-ligne

RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne e...

متن کامل

Identification of Arabic/French Handwritten/Printed Words using GMM-Based System

The discrimination between languages is one of the first steps in the problem of automatic documents text recognition. In many documents, such as bank checks and application forms, printed and handwritten texts are mixed. In this paper, an automatic identification system of Arabic and French words in both handwritten and printed script based on Gaussian Mixture Models (GMMs) was presented. A fi...

متن کامل

Conception d'un outil d'aide à l'indexation de ressources pédagogiques - Extraction automatique des the?matiques et des mots-clefs de documents UNIT

RÉSUMÉ Le Learning Object Metadata (LOM) est le standard incontestable pour l’indexation des ressources pédagogiques. L'indexation de ces ressources en LOM est souvent accomplie manuellement par des documentalistes. Renseigner l’ensemble des champs du LOM d’un document est une tâche difficile et longue, nécessitant habituellement une lecture complète et une connaissance dans le domaine traité. ...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2006

Extraction automatique de champs numériques dans des documents manuscrits

نویسندگان

چکیده

منابع مشابه

Indexation de Documents Manuscrits

Un modèle de bibliothèque numérique collaborative - ARMARIUS

Apprentissage supervisé pour la catégorisation de documents manuscrits en-ligne

Identification of Arabic/French Handwritten/Printed Words using GMM-Based System

Conception d'un outil d'aide à l'indexation de ressources pédagogiques - Extraction automatique des the?matiques et des mots-clefs de documents UNIT

عنوان ژورنال:

اشتراک گذاری