Résumé automatique de texte avec un algorithme d'ordonnancement

نویسندگان

  • Nicolas Usunier
  • Massih-Reza Amini
  • Patrick Gallinari
چکیده

Résumé: Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d'un document est représentée par un vecteur de scores de pertinence, où chaque score est un score de similarité entre une requête particulière et la phrase considérée. L'algorithme d'ordonnancement effectue alors une combinaison linéaire de ces scores, avec pour but d'affecter aux phrases pertinentes d'un document des scores supérieurs à ceux des phrases non pertinentes du même document. Les algorithmes d'ordonnancement ont montré leur efficacité en particulier dans le domaine de la méta-recherche, et leur utilisation pour le résumé est motivée par une analogie peut être faite entre la méta-recherche et le résumé automatique qui consiste, dans notre cas, à considérer les similarités des phrases avec les différentes requêtes comme étant des sorties de différents moteurs de recherche. Nous montrons empiriquement que l'algorithme d'ordonnancement a de meilleures performances qu'une approche utilisant un algorithme de classification sur deux corpus distincts.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Modèles d'Ordonnancement pour l'Annotation Automatique d'Images dans les Réseaux Sociaux

RÉSUMÉ. Nous proposons un modèle d’ordonnancement de données relationnelles pour apprendre automatiquement à annoter des images dans les sites permettant le partage social d’images. Ce modèle apprend à associer une liste ordonnée d’étiquettes à une image en considérant simultanément l’information de contenu (texte/image) et les informations relationnelles entre les images. Il est capable d’util...

متن کامل

Traiter les documents XML avec les « contextes de lecture »

RÉSUMÉ. Le langage XML autorise, par sa souplesse de structuration, des manipulations du contenu qui créent parfois des ruptures arbitraires dans le flot naturel du texte. Ces caractéristiques soulèvent des difficultés lorsque l’on souhaite mettre en œuvre des techniques d’analyse automatique du contenu des documents XML. Cet article présente cette problématique et y répond, sur le plan théoriq...

متن کامل

Détection et regroupement automatique de style d'écriture dans un texte

Résumé. La détection de plagiat extrinsèque devient vite inefficace lorsque l’on n’a pas accès aux documents potentiellement sources du plagiat ou lorsque l’on se confronte à un espace aussi vaste que le Web, ce qui est souvent le cas dans les logiciels anti-plagiat actuels. Dès lors la détection intrinsèque devient nettement plus efficace. Dans cet article, nous traitons justement de la détect...

متن کامل

Recherche locale dichotomique pour la résolution des CSP continus

RÉSUMÉ. Nous présentons un algorithme heuristique pour déterminer une solution d’un problème de satisfaction de contraintes continu. Cet algorithme, appelé Recherche Locale Dichotomique ( ), combine la recherche locale, la bissection et la contraction d’intervalles avec la propagation de contraintes. Nous présentons des résultats expérimentaux et les comparons avec un algorithme de recherche lo...

متن کامل

Contextualisation automatique de Tweets à partir de Wikipédia

RÉSUMÉ. Les réseaux sociaux sont au centre des communications sur internet et une grande partie des échanges communautaires se fait à travers eux. Parmi eux, l’apparition de Twitter a donné lieu à la création d’un nouveau type de partage d’informations où les messages sont limités à 140 caractères. Les utilisateurs de ce réseau s’expriment donc succinctement, souvent en temps réel à partir d’un...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005