Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques
نویسندگان
چکیده
RÉSUMÉ. Dans un certain nombre de cas, les dossiers numériques sont constitués par rétroconversion de documents papier. Or jusqu’à présent ces rétroconversions impliquent de développer, pour chaque type de documents, un système spécifique de reconnaissance. Nous proposons donc une approche générique, la méthode DMOS, qui permet d’engendrer le système de reconnaissance adapté à partir de la description de la structure de chaque document. Cette méthode qui a déjà été utilisée sur différents types de documents (partitions musicales, formules mathématiques...), permet entre autres de repérer les structures tabulaires contenues dans une page. Elle vient d’être validée sur plus de 5 000 fiches nominatives d’incorporation militaire du XIXe siècle. En produisant une description XML du document, la méthode permet d’appliquer ensuite d’autres traitements comme la constitution de pages d’index visuels ou le masquage de champs confidentiels.
منابع مشابه
La rétroconversion de fonds bibliographiques pour des besoins de bibliométrie
RÉSUMÉ. Cet article décrit une méthodologie de rétroconversion de citations permettant de retrouver les champs composants à partir de leur texte reconnu par OCR. Cette méthodologie se base à la fois sur la régularité et la redondance de certains champs ainsi que sur la localisation de parties de discours spécifiques à certains champs. Le résultat de la rétroconversion sert à des études de bibli...
متن کاملMaladies contagieuses non parasitaires-sur une nouvelle méthode de vaccination contre la pasteurellose des bovins et des buffles
متن کامل
PFC: Un outil d'aide à la découverte des contenus des documents et à la création de dossiers
Cet article traite de la construction automatique et dynamique de dossiers consolidés. La construction de dossiers utilise plusieurs étapes : recherche des documents les plus significatifs à partir d’une requête par mots-clés, classification dynamique du résultat de la requête en utilisant plusieurs classifieurs aux comportements différentiés, combinaison des résultats de ces classifieurs pour ...
متن کاملReprésentation Symbolique de Trajectoires Géolocalisées
RESUME. Énormément de trajectoires géolocalisées sont produites et disponibles, mais leur exploitation pour en tirer des informations intéressantes reste difficile. L'obstacle qui nous intéresse ici est la mauvaise qualité de certaines de ces données : échantillonnage très irrégulier et précision médiocre. Nous proposons de les transposer dans des domaines symboliques pour pouvoir effectuer des...
متن کاملExtraction non supervisée de motifs temporels, multidimensionnels et hétérogènes Application à la télésurveillance médicale à domicile
Résumé. Une méthode générique pour l’extraction non supervisée de motifs dans des séquences temporelles multidimensionnelles et hétérogènes est proposée, puis expérimentée pour l’identification des comportements récurrents d’une personne à domicile. L’objectif est de concevoir un système d’apprentissage des habitudes de vie, à partir des données de capteurs, pour la détection d’évolutions criti...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Document Numérique
دوره 6 شماره
صفحات -
تاریخ انتشار 2002