Classification de courriers électroniques. Une approche par apprentissage basée sur des modèles linguistiques

نویسندگان

  • Omar Nouali
  • A. Regnier
  • Philippe Blache
چکیده

RÉSUMÉ. Nous proposons une double amélioration des systèmes de filtrage de courriels existants. D’une part, en utilisant une méthode d’apprentissage automatique permettant à un système de filtrage d’élaborer des profils utilisateur. D’autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, nous cherchons à évaluer si l’utilisation de connaissances et de traitements linguistiques peut améliorer les performances d’un système de filtrage. En effet, nous utilisons, au-delà des caractéristiques lexicales, un ensemble d’indicateurs sur le message portant sur la structure et le contenu. Ces connaissances sont indépendantes du domaine d’application et la fiabilité repose sur l’opération d’apprentissage. Pour tenter de statuer sur la faisabilité de notre approche et d’évaluer son efficacité, nous l’avons expérimenté sur un corpus de 1 200 messages. Nous présentons les résultats d’un ensemble d’expériences d’évaluation.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Séparateurs à Vaste Marge Optimisant la Fonction Fbeta

Dans cet article, nous introduisons une nouvelle paramétrisation des Séparateurs à Vaste Marge (SVM) appelée Fβ SVM. Cette dernière permet d’effectuer un apprentissage basé sur l’optimisation de la fonction Fβ au lieu de l’erreur de classification habituelle. Les expériences montrent les avantages d’une telle démarche par rapport à la formulation soft-margin standard (avec les écarts à la marge...

متن کامل

De la réutilisabilité des applications vers celle des modèles

RÉSUMÉ. Dans de précédents travaux, nous avons proposé une approche basée sur la programmation par aspects et la programmation par sujets pour séparer et composer les préoccupations d’une application. L’objectif était, à travers la définition d’un protocole de composition, d’augmenter la réutilisabilité des classes qui forment une application. Dans le présent article nous proposons de faire évo...

متن کامل

Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels...

متن کامل

Supporting Effective Software Modeling

RÉSUMÉ. Dans cet article nous identifions les raisons de la faible utilisation des techniques de modélisations dans l’industrie et nous donnons un aperçu d’une approche basée modèle qui peut améliorer l’utilisation des modèles pour le développement des systèmes complexes. Les mécanismes présentés ici reposent sur une approche du développement guidé par les modèles et qui met en avant (1) la réu...

متن کامل

Forage distribué des données : une comparaison entre l'agrégation d'échantillons et l'agrégation de règles

Résumé. Pour nous attaquer au problème du forage de très grandes bases de données distribuées, nous proposons d’étudier deux approches. La première est de télécharger seulement un échantillon de chaque base de données puis d’y effectuer le forage. La deuxième approche est de miner à distance chaque base de données indépendamment, puis de télécharger les modèles résultants, sous forme de règles ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Revue d'Intelligence Artificielle

دوره 19  شماره 

صفحات  -

تاریخ انتشار 2005