Découvrir les thèmes d'un document pour en améliorer la segmentation thématique

نویسنده

  • Olivier Ferret
چکیده

La segmentation thématique et l’identification des thèmes d’un document sont souvent traitées comme des problèmes séparés, même si elles relèvent toutes deux de l’analyse thématique. Dans cet article, nous proposons d’examiner comment l’identification thématique peut contribuer à améliorer la segmentation de documents lorsque celle-ci ne s’appuie que sur la récurrence lexicale. Nous présentons d’abord une méthode non supervisée de découverte des thèmes d’un document ; puis nous détaillons comment ces thèmes sont utilisés dans la segmentation pour aider à reconnaître les similarités thématiques entre des segments de documents. Nous montrons enfin, au travers d’une évaluation faite à la fois pour le français et pour l’anglais, l’intérêt effectif de la méthode proposée.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe

Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....

متن کامل

Approches endogène et exogène pour améliorer la segmentation thématique de documents

Topic segmentation was addressed by a large amount of work from which it is not easy to draw conclusions, especially about the need for knowledge. In this article, we propose in the same framework two methods for improving the results of a topic segmenter based on lexical reiteration. The first one is endogenous and exploits the distributional similarity of the words of a document for discoveri...

متن کامل

Un outil de détection automatique de thèmes

Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...

متن کامل

Segmentation en locuteurs d'un document audio

R esum e: Dans cet article, nous abordons le probl eme de la segmentation en locuteurs. Le but est d'obtenir des segments de locuteurs homog enes, c'esta-dire ne contenant les paroles que d'un seul et même locuteur. Ces segments doivent être les plus longs possible. Dans notre etude, nous faisons les hypoth eses qu'aucune connaissance a priori sur les locuteurs n'est disponible et que les perso...

متن کامل

Web Content Data Mining : la classification croisée pour l'analyse textuelle d'un site Web

Résumé. Notre objectif dans cet article est l’analyse textuelle d’un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page pa...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006