Une nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens

نویسندگان

  • Guillaume JOUTEL
  • Hubert EMPTOZ
چکیده

Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientations et les courbures sur les contours des formes et ce à différentes échelles. Nous utilisons cette approche pour, dans un premier temps, isoler les parties textuelles et, dans un second temps, construire une signature synthétique de l’écriture. Nous avons validé notre approche par un système de recherche d’informations par le contenu sur une base médiévale de l’IRHT1 et le corpus de correspondances européennes du 18ème siècle. Mots-clés : Recherche d’informations par le contenu, Curvelets, extraction de caractéristiques, manuscrits anciens

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Une nouvelle approche pour indexer les documents manuscrits anciens

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Approche complexe de l'analyse de documents anciens

Résumé. Cet article présente une méthode complexe pour la caractérisation et l’indexation d’images graphiques de documents anciens. A partir d’un bref état de l’art, une méthode pour décrire ces images en tenant compte de leur complexité est proposée. Trois étapes principales de ce traitement sont détaillées dont une méthode novatrice d’analyse, de segmentation et de description des traits. Les...

متن کامل

Un modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits

RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour ...

متن کامل

Alignement texte-image sans apprentissage pour les manuscrits médiévaux

RÉSUMÉ. Dans cet article, nous décrivons une nouvelle approche pour l’alignement texte-image des documents du moyen-âge. La méthode est dédiée à l’alignement au niveau mot, sans segmentation ni apprentissage. L’alignement mot à mot est basé sur une distance d’édition appliquée à des signatures extraites à la fois à partir des chaı̂nes de caractères Unicode et à partir des images. Les résultats s...

متن کامل

Un modèle de bibliothèque numérique collaborative - ARMARIUS

RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manusc...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008