Système générique et omni-langage de navigation dans des bases de documents anciens basé sur de la recherche de mots par composition intéractive de requêtes

نویسنده

  • Quang Anh Bui
چکیده

Word retrieval for browsing old digitized document collections is an active field of research. Indeed, because of the bad quality of this type of documents and the use of an ancient language, applying a basic OCR is not enough in general. In order to circumvent these difficulties, we are currently working on a generic, omni-language and interactive word retrieval system for browsing old document collections. This approach enables the user to retrieve words in any old collection of documents, whatever the alphabet, pictographs or ideograms used, without previously detecting an occurrence of the word in the collection, and even without mastering the language. RÉSUMÉ. La recherche de mots ou de groupe de mots pour la navigation dans des collections de documents anciens numérisés est un sujet de recherche actif dans la communauté internationale. En raison en particulier de la qualité médiocre de ce type de documents et de l’utilisation d’un langage ancien ou rare, appliquer un simple OCR sur ces documents ne suffit pas, d’autant que certains alphabets ne disposent d’aucun système de reconnaissance automatique. Afin de contourner ces difficultés, nous proposons un système générique, omni-langage et interactif de recherche de mots dans des collections de documents anciens. Cette approche permet de travailler sur n’importe quelle collection de documents anciens, utilisant n’importe quel alphabet, pictogrammes ou idéogrammes. Dans ce contexte, l’utilisateur peut composer sa requête et il n’a pas besoin de maîtriser le langage ni de détecter préalablement une occurrence du mot-clé.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

Violence du langage dans l’œuvre dramatique de Samuel Beckett : la quête du néant

L’homme beckettien représente grosso modo sur la scène de théâtre des années cinquante le spectacle de souffrance physique et de désintégration totale du sujet qui est le fait d’un trauma et d’un complexe plus profonds, celui du vide de matières scéniques et du mal fondamental qu’on traiterait d’existentiel. En d’autres termes, le mal est dans ce monde quelque chose d’inné chez l’être humain. C...

متن کامل

Interrogation à base d'Annotation Sémantique

Résumé. Les approches de la recherche d’information (RI) actuelles ne saisissent pas formellement la signification explicite d'une requête à base de mots-clés mais fournissent une voie confortable pour l'utilisateur qui spécifie ces besoins en informations sur la base des mots-clés. La recherche sémantique promet de fournir des résultats plus précis que la traditionnelle recherche par mots-clés...

متن کامل

Une nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens

Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientati...

متن کامل

Inspiration nihiliste dans La Chouette aveugle de Sadegh Hedayat

La Chouette aveugle de Sadegh Hedayat, auteur iranien, qui appartient à la catégorie des œuvres dites « noires », se fonde sur une inspiration nihiliste. Malgré l’influence indéniable de la philosophie nihiliste dans la création de cette œuvre compliquée, il n’y a aucune étude cohérente qui traite ce sujet de différents points de vue. Ce qui est certain, c’est que Hedayat était un lecteur atten...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012