Interprétation vague des contraintes structurelles pour la RI dans des corpus de documents XML - Évaluation d'une méthode approchée de RI structurée

نویسندگان

  • Eugen Popovici
  • Gildas Ménier
  • Pierre-François Marteau
چکیده

RÉSUMÉ. Nous proposons des algorithmes dédiés à l’indexation et à la recherche approximative d’information dans les bases de données hétérogènes semi-structurées XML. Le modèle d’indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d’arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein modifiée et des heuristiques de fusion d’information. Une implémentation exploitant simultanément l’information structurée, i.e. l’arborescence des éléments XML, et le contenu des documents indexés est décrite. Les performances obtenues dans le cadre de la campagne d’évaluation INEX 2005 sont présentées et analysées. Celles-ci positionnent l’approche proposée parmi les meilleurs systèmes évalués, sur la tâche de recherche approximative de contenu en contexte structurel vague.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Modèle de recherche d'information structurée basé sur la relaxation de requêtes

RÉSUMÉ. Cet article présente un modèle pour la recherche d’information sur des documents XML basée sur la comparaison d’arbres, en utilisant le principe de relaxation de requêtes. Les requêtes et les documents sont représentés par des arbres étendus. Un arbre étendu est construit à partir de l’arbre original, avec la pondération des liens virtuels entre chaque nœud et ses descendants indirects,...

متن کامل

Classification automatique de documents structurés. Application au corpus d'arbres étiquetés de type XML

RÉSUMÉ. Le domaine de la Recherche d’Information Structurée (RIS) est un domaine qui émerge avec l’arrivée de données semi structurées comme les documents XML. Ce domaine, à travers l’initiative INEX, concerne principalement le développement de moteurs de recherche documentaire. Aujourd’hui, il est nécessaire de développer des modèles pour le traitement de différentes problématiques dans les do...

متن کامل

Compression de structure XML pour la recherche d'information structurée

RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’i...

متن کامل

Apprentissage neuro-symbolique pour la RI coopérative, adaptative et évolutive : le modèle multi-agents SARCI

RÉSUMÉ. Dans cet article nous proposons un modèle pour un SRI qui prend en compte la complexité de la requête de l’utilisateur en proposant de la décomposer en différents points de vue. Nous proposons également de considérer les documents du corpus suivant des angles différents et des structures diverses. Pour prendre en compte le caractère évolutif des connaissances liées aux documents et aux ...

متن کامل

Évaluation d'une application de transmission d'images médicales avec un réseau sans fil

Nous proposons une plate-forme de consultation de bases de données et/ou d'échanges d'images biomédicales, adaptée à la transmission bas débit et destinée à des médecins généralistes ou spécialistes. La visée peut-être préventive, diagnostique et thérapeutique. Elle concerne des spécialités telles que la radiologie, l'échographie, l'anatomo-pathologie ou l'endoscopie. Les principales fonctionna...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Document Numérique

دوره 10  شماره 

صفحات  -

تاریخ انتشار 2007