Impact of the nature and size of the training set on performance in the automatic detection of named entities (Impact de la nature et de la taille des corpus d'apprentissage sur les performances dans la détection automatique des entités nommées) [in French]
نویسندگان
چکیده
We present a comparative study on the impact of the nature and size of the training corpus on performance in automatic named entities recognition. This evaluation is in the form of multiple modulations on three French corpus. Two corpora are from the catalog of the European Language Resources Association (ELRA) and the third is composed of documents extract from the OpenEdition.org platform. Mots-clés : Reconnaissance d’entités nommées, Adaptation au domaine, comparaison d’outils.
منابع مشابه
Named Entity Recognition and Correction in OCRized Corpora (Détection et correction automatique d'entités nommées dans des corpus OCRisés) [in French]
Résumé. La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d’erreurs à l’aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue géné...
متن کاملBuilding a Bilingual Vietnamese-French Named Entity Annotated Corpus through Cross-Linguistic Projection
Résumé. La création de ressources linguistiques de bonne qualité annotées en entités nommées est très coûteuse en temps et en main d’œuvre. La plupart des corpus standards sont disponibles pour l’anglais mais pas pour les langues peu dotées, comme le vietnamien. Pour les langues asiatiques, cette tâche reste très difficile. Le présent article concerne la création automatique de corpus annotés e...
متن کاملفایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان
Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...
متن کاملImproving Minor Opinion Polarity Classification with Named Entity Analysis (L'apport des Entités Nommées pour la classification des opinions minoritaires) [in French]
RÉSUMÉ La majeure partie des travaux en fouille d’opinion et en analyse de sentiment concerne le classement des opinions majoritaires. Les méthodes d’apprentissage supervisé à base de ngrammes sont souvent employées. Elles ont l’inconvénient d’avoir un biais en faveur des opinions majoritaires si on les utilise de manière classique. En fait la présence d’un terme particulier, fortement associé ...
متن کاملSelective Celiac Angiography in Hepatic Hydatid Cyst and Comparison with Scintigraphy
This article was presented by the author at the Third Iranian Congress of Radiology - University of Isfahan. Les explorations arteriographiques des kystes hydatique du foie et sa comparaison avec Ia scintigraphie hepatique L' auteur present quatre cas de quarante six cas d'angiographie coeliaque et mesentrique sup2-rieure en portant son attention sur les resultats obtenus de cet examen et de...
متن کامل