Une nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens
نویسندگان
چکیده
Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientations et les courbures sur les contours des formes et ce à différentes échelles. Nous utilisons cette approche pour, dans un premier temps, isoler les parties textuelles et, dans un second temps, construire une signature synthétique de l’écriture. Nous avons validé notre approche par un système de recherche d’informations par le contenu sur une base médiévale de l’IRHT1 et le corpus de correspondances européennes du 18ème siècle. Mots-clés : Recherche d’informations par le contenu, Curvelets, extraction de caractéristiques, manuscrits anciens
منابع مشابه
Une nouvelle approche pour indexer les documents manuscrits anciens
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملApproche complexe de l'analyse de documents anciens
Résumé. Cet article présente une méthode complexe pour la caractérisation et l’indexation d’images graphiques de documents anciens. A partir d’un bref état de l’art, une méthode pour décrire ces images en tenant compte de leur complexité est proposée. Trois étapes principales de ce traitement sont détaillées dont une méthode novatrice d’analyse, de segmentation et de description des traits. Les...
متن کاملUn modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits
RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour ...
متن کاملAlignement texte-image sans apprentissage pour les manuscrits médiévaux
RÉSUMÉ. Dans cet article, nous décrivons une nouvelle approche pour l’alignement texte-image des documents du moyen-âge. La méthode est dédiée à l’alignement au niveau mot, sans segmentation ni apprentissage. L’alignement mot à mot est basé sur une distance d’édition appliquée à des signatures extraites à la fois à partir des chaı̂nes de caractères Unicode et à partir des images. Les résultats s...
متن کاملUn modèle de bibliothèque numérique collaborative - ARMARIUS
RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manusc...
متن کامل