Détection et correction automatique d'erreurs d'annotation morpho-syntaxique du French TreeBank (Detecting and Correcting POS Annotation in the French TreeBank) [in French]

نویسندگان

  • Florian Boudin
  • Nicolas Hernandez
چکیده

Detecting and correcting POS annotation in the French TreeBank The quality of the Part-Of-Speech (POS) annotation in a corpus has a large impact on training and evaluating POS taggers. In this paper, we present a series of experiments that we have conducted on automatically detecting and correcting annotation errors in the French TreeBank. Two methods are used. The first simply relies on identifying tokens with missing tags and correct them by assigning the tag the same token observed in the corpus. The second method uses n-gram variations to detect and correct conflicting annotations. The evaluation of the automatic correction is performed extrinsically by comparing the performance of different POS taggers in relation to the level of correction. Results show a statistically significant improvement in precision and indicate that the POS annotation quality can be noticeably enhanced by using automatic correction methods. MOTS-CLÉS : Étiquetage morpho-syntaxique, correction automatique, qualité d’annotation.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Towards a treebank of spoken French (Vers un treebank du français parlé) [in French]

Towards a treebank of spoken French We present the first results of an attempt to build a spoken treebank for French. It has been conducted as part of the ANR project Etape (resp. G. Gravier). Contrary to other languages such as English (see the Switchboard treebank (Meteer, 1995)), there is no sizable spoken corpus for French annotated for syntactic constituents and grammatical functions. Our ...

متن کامل

A Named Entity recognizer for French (Un reconnaisseur d'entités nommées du Français) [in French]

We propose to demonstrate a french named entity recognizer trained on the French TreeBank enriched with named entity annotations. Mots-clés : REN, POS, apprentissage automatique, French Treebank, extraction d’information, CRF.

متن کامل

Converting dependencies for syntactic analysis of French into PASSAGE functional relations (Convertir des analyses syntaxiques en dépendances vers les relations fonctionnelles PASSAGE) [in French]

RÉSUMÉ Nous présentons ici les premiers travaux concernant l’établissement d’une passerelle bidirectionnelle entre d’une, part les schémas d’annotation syntaxique en dépendances qui ont été définis pour convertir les annotations du French Treebank en arbres de dépendances de surface pour l’analyseur syntaxique Bonsai, et d’autre part le formalisme d’annotation PASSAGE développé initialement pou...

متن کامل

Annotation sémantique du French Treebank à l'aide de la réécriture modulaire de graphes (Semantic Annotation of the French Treebank using Modular Graph Rewriting) [in French]

RÉSUMÉ Nous proposons d’annoter le French Treebank à l’aide de dépendances sémantiques dans le cadre de la DMRS en partant d’une annotation en dépendances syntaxiques de surface et en utilisant la réécriture modulaire de graphes. L’article présente un certain nombre d’avancées concernant le calcul de réécriture utilisé : l’utilisation de règles pour faire le lien avec des lexiques, en particuli...

متن کامل

Automatic tagging of a learner corpus of English with a modified version of the Penn Treebank tagset (Annotation automatique d'un corpus d'apprenants d'anglais avec un jeu d'étiquettes modifié du Penn Treebank) [in French]

Cet article aborde la problématique de l'annotation automatique d'un corpus d'apprenants d'anglais. L'objectif est de montrer qu'il est possible d'utiliser un étiqueteur PoS pour annoter un corpus d'apprenants afin d'analyser les erreurs faites par les apprenants. Cependant, pour permettre une analyse suffisamment fine, des étiquettes fonctionnelles spécifiques aux phénomènes linguistiques à ét...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012