Indexation pour la recherche par le contenu textuel de flux RSS. (Indexing by content in RSS systems.)
نویسنده
چکیده
Based on a Publish/Subscribe paradigm, Web Syndication formats such as RSS have emerged as a popular means for timely delivery of frequently updated Web content. According to these formats, information publishers provide brief summaries of the content they deliver on the Web, while information consumers subscribe to a number of RSS feeds and get informed about newly published items. The goal of this thesis is to propose a notification system which scales on the Web. To deal with this issue, we should take into account the large number of users on the Web and the high publication rate of items. We propose a keyword-based index for user subscriptions to match it on the fly with incoming items. We study three indexing techniques for user subscriptions. We present analytical models to estimate memory requirements and matching time. We also conduct a thorough experimental evaluation to exhibit the impact of critical workload parameters on these structures. For the subscriptions which are never notified, we adapt the indexes to support a partial matching between subscriptions and items. We integrate a diversity and novelty filtering step in our system in order to decrease the number of notified items for short subscriptions. This filtering is based on the information delivered in the set of items already received by the user. Key-words : Web Syndication, RSS Feed, Publish/Subscribe system, Indexing, Diversity, Novelty.
منابع مشابه
Un modèle de recherche d'information dans des pages Web structurées en blocs
Dans le contexte de la recherche d’information sur le Web, nous présentons ici un modèle pour l’indexation et l’interrogation de pages Web utilisant aussi bien le contenu textuel que leur rendu visuel. Une page Web est considérée comme un ensemble de blocs contenant de l’information multimédia. La représentation visuelle d’un bloc (taille de police, couleur de fond, . . .), ainsi que sa taille ...
متن کاملVers une indexation sémantique d'images dans un fonds iconographique territorialisé
Dans cet article, nous abordons nos travaux pour indexer et faire des recherches sur une base d’images telle que celle mise à notre disposition par la médiathèque de Pau. Le but est de proposer une méthode, des outils et techniques et un modèle sémantique pour identifier automatiquement des objets ayant pour nous un intérêt visuel, par exemple un clocher, une statue. Afin de mener à bien cette ...
متن کاملApproche interactive de la recherche d'images par le contenu
RÉSUMÉ. Cet article traite du problème de l’indexation et de la recherche d’images par le contenu dans les bases généralistes. Le fossé sémantique qui sépare l’information bas niveau extraite de l’image et la requête sémantique de l’utilisateur est la limite majeure rencontrée dans le domaine. L’aspect indexation est abordé sous l’angle de l’optimisation hors-ligne de la taille et de la pertine...
متن کاملIndexation multimédia par dictionnaires visuels en environnement décentralisé. Une approche par protocoles Gossip
RÉSUMÉ. Pour permettre la recherche par le contenu de documents multimédia repartis sur de larges réseaux, nous proposons un système d’indexation basé sur l’apprentissage décentralisé et asynchrone de dictionnaires visuels. Nous proposons un algorithme décentralisé pour le calcul des dictionnaires basé sur un protocole d’agrégation Gossip, qui produit un dictionnaire local performant en chaque ...
متن کاملRecherche approchée d'information dans une base de documents semi-structurés
RÉSUMÉ. Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein ...
متن کامل