Vectorisation des processus d'appariement document-requête

نویسندگان

  • Vincent Claveau
  • Romain Tavenard
  • Laurent Amsaleg
چکیده

RÉSUMÉ. Dans la plupart des applications de RI, calculer rapidement la proximité entre documents et requêtes est crucial. Avec les modèles vectoriels, ce calcul se fait généralement de manière très efficace. Cependant, lorsque les requêtes sont très longues ou dans le cas de SRI basés sur des modèles plus avancés, ce calcul devient plus complexe et coûteux. Dans cet article, nous proposons une technique simple pour transformer n’importe quel processus d’appariement requête-document fournissant un score en un problème de calcul de distance entre vecteurs. Cette approche peut ainsi bénéficier des bonnes performances des outils existants d’indexation et de recherche approximative dans des espaces de grandes dimensions. Au travers de quelques expériences, nous montrons par ailleurs que cette représentation n’entraîne pas de baisse importante de qualité des résultats, et, lorsque de nombreux documents sont à retourner, améliore même le rappel par rapport au SRI original, à taille de résultat égal.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Exploitation des Liens Sémantiques pour l'Expansion de Requêtes dans un Système de Recherche d'Information

RÉSUMÉ: Dans cet article, nous proposons d’exploiter des liens sémantiques entre concepts pour améliorer la recherche d’information. Un thesaurus électronique de langue générale est utilisé pour la reformulation des requêtes utilisateurs en procédant par un processus d’"expansion prudente" en amont d’un moteur de recherche. Ce processus, transparent à l’utilisateur, exploite d’abord la notion d...

متن کامل

Performance of a log(n) Distributed Mutual Exclusion Algorithm in case of Non-Equiprobability of Processes Requests

RÉSUMÉ. L’algorithme distribué d’exclusion mutuelle de Naimi-Tréhel est fondé sur une structure dynamique d’arbre enraciné: quand un processusdemande la section critique, il envoie une requête qui chemine jusqu’à la racine de l’arbre, puis il devient la nouvelle racine de l’arbre réorganisé. Quand les demandes des processus sont équiprobables, l’algorithme ne requiert que Hn 1 (de l’ordre de lo...

متن کامل

Présentation et évaluation d'un modèle d'accès personnalisé à l'information basé sur les diagrammes d'influence

RÉSUMÉ. L’objet de cet article est de décrire un modèle formel capable d’intégrer l’utilisateur dans le processus d’accès à l’information. Nous avons orienté nos travaux vers l’utilisation des diagrammes d’influence comme support théorique nous permettant de formaliser l’utilité des décisions associées à la pertinence des documents compte tenu de la requête et du profil de l’utilisateur. L’idée...

متن کامل

Evaluation de la précision pour un système hypertexte

RÉSUMÉ. Certains moteurs de recherche, par exemple Google, utilisent les liens hypertextes dans le processus de sélection des documents en réponse à une requête. Dans ce papier, nous présentons une nouvelle fonction de correspondance qui effectue un classement des réponses à partir d’une mesure d’appariement entre les mots clés d’une requête et le texte ancre associé aux liens hypertextes des p...

متن کامل

Accurate and effective latent concept modeling for ad hoc information retrieval

A keyword query is the representation of the information need of a user, and is the result of a complex cognitive process which often results in under-specification. We propose an unsupervised method namely Latent Concept Modeling (LCM) for mining and modeling latent search concepts in order to recreate the conceptual view of the original information need. We use Latent Dirichlet Allocation (LD...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010