Multi-catégorisation de textes juridiques et retour de pertinence

نویسندگان

  • Vincent Pisetta
  • Hakim Hacid
  • Djamel A. Zighed
چکیده

Résumé. La fouille de données textuelles constitue un champ majeur du traitement automatique des données. Une large variété de conférences, comme TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille de textes juridiques, dans l’objectif est le classement automatique de ces textes. Nous utilisons des outils d’analyses linguistiques (extraction de terminologie) dans le but de repérer les concepts présents dans le corpus. Ces concepts permettent de construire un espace de représentation de faible dimensionnalité, ce qui nous permet d’utiliser des algorithmes d’apprentissage basés sur des mesures de similarité entre individus, comme les graphes de voisinage. Nous comparons les résultats issus du graphe et de C4.5 avec les SVM qui eux sont utilisés sans réduction de la dimensionnalité.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Utilisation de WordNet dans la catégorisation de textes multilingues

La Catégorisation de Textes (C.T) consiste à assigner une ou plusieurs catégories parmi une liste prédéfinie à un document. En d’autres termes, elle permet de chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (Sebastiani (2002)). La grande importance accordée cette dernière décennie au traitement des données multilingues, a donné naissance à un nouveau ...

متن کامل

Retour d’expérience sur la détection automatique de métaphores dans des textes de Géographie

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Interactions entre le calcul de collocations et la catégorisation automatique de textes

In this paper we describe some interactions between collocations and automatic text categorization. First, we use the differents categories to extract strings (through collocations agglutinations) related to each categorie. Then we use these categories-specific strings to improve categorization. MOTS-CLÉS : collocations, catégorisation automatique de textes.

متن کامل

Prostitution, Islamic Law and Ottoman Societies

This article examines the treatment of prostitution in several genres of Ottoman legal writing—manuals and commentaries of Islamic jurisprudence, fatwās (legal opinions) and ḳānūnnāmes (Sultanic legislation)—and looks at how prostitution was dealt with in practice by the empire’s sharīʿa courts and by its provincial executive authorities. The article uses prostitution as a case study to investi...

متن کامل

TLabel: Nouvel opérateur d'agrégation par catégorisation dans les cubes de textes

Résumé. L’analyse en ligne (OLAP) dans les cubes de textes nécessite la définition de nouveaux types d’opérateurs d’analyse appropriés aux données textuelles. En effet, les opérateurs d’agrégation classiques ont montré leur efficacité pour l’analyse en ligne des données numériques, mais ils sont inadaptés pour l’analyse des données textuelles. Dans cet article, nous proposons un nouvel opérateu...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006