Reconnaissance et extraction de documents. Une application industrielle à la détection de documents semi-structurés

نویسندگان

  • Olivier Augereau
  • Nicholas Journet
  • Jean-Philippe Domenger
چکیده

This article deals with the problem of recognition of semi-structured documents image. The aim is to detect a document and to extract the region of interest containing it. Initially, an exemple of document is given by the user and a set of interest points are extracted from this query image. In a second step, a set of interest points is extracted from each image to analyse and is matched with the set of the query image. This matching is used to calculate the geometric transformation (translation, rotation, zoom) allowing the registration between the query image and the analysed image. Two main proposals have been made to make this technique usable for documents image matching : the selection of interest points and the adaptation of RANSAC. MOTS-CLÉS : comparaison d’images de documents, points d’intérêt, FLANN, SURF, RANSAC.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Restructuration automatique de documents dans les corpus semi-structurés hétérogènes

Résumé. L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consi...

متن کامل

Fusion des connaissances en analyse de documents - Exemples sur des documents d'archives

RÉSUMÉ. La reconnaissance de collections de documents structurés numérisés et notamment de documents d’archives est difficile non seulement par la complexité de l’organisation des documents, mais aussi par la dégradation des documents (tâches, déchirures, encre traversant le papier, courbures produites à la numérisation. . . ). Afin d’améliorer la qualité de la reconnaissance tout en gérant le ...

متن کامل

Extraction d'entités dans des collections évolutives

Résumé. Nous nous intéressons à l’extraction d’entités nommées avec comme but d’exploiter un ensemble de rapports pour en extraire une liste de partenaires. À partir d’une liste initiale, nous utilisons un premier ensemble de documents pour identifier des schémas de phrase qui sont ensuite validés par apprentissage supervisé sur des documents annotés pour en mesurer l’efficacité avant d’être ut...

متن کامل

Modèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques

RÉSUMÉ. Cet article s’intéresse à l’indexation des données ayant une sémantique pauvre dans des documents structurés. Le but est d’exploiter le contenu des données symboliques avoisinantes afin d’en extraire les fragments adéquats pour compléter l’indexation de la donnée non symbolique. Cette approche a été abordée dans le cadre concret d’une application dans un contexte professionnel : indexer...

متن کامل

Recherche de documents similaires sur le web par segmentations hiérarchiques et extraction de mots-clés

Résumé. La recherche de documents similaires est un processus qui consiste à trouver les documents présentant des similitudes, comme la copie ou la reformulation, sur des bases documentaires ou sur internet. Elle est utilisée notamment pour protéger la propriété intellectuelle de productions issues de l’enseignement, de la recherche ou de l’industrie. Dans cet article, nous définissons une appr...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Document Numérique

دوره 16  شماره 

صفحات  -

تاریخ انتشار 2013