Application d'un algorithme de traduction statistique à la normalisation de textos (Applying a Statistical Machine Translation Algorithm to SMS Text Message Normalization) [in French]
نویسنده
چکیده
RÉSUMÉ Ce travail porte sur l’application d’une technique de traduction statistique au problème de la normalisation de textos. La méthode est basée sur l’algorithme de recherche vorace décrit dans (Langlais et al., 2007). Une première normalisation est générée, puis nous appliquons itérativement une fonction qui génère des nouvelles hypothèses à partir de la normalisation courante, et maximisons une fonction de score. Cette méthode fournit une réduction du taux d’erreurs moyen par phrase de 33 % sur le corpus de test, et une augmentation du score BLEU de plus de 30 %. Nous mettons l’accent sur les fonctions qui génèrent la normalisation initiale et sur les opérations permettant de générer des nouvelles hypothèses.
منابع مشابه
Mining a Bilingual Lexicon of MultiWord Expressions : A Statistical Machine Translation Evaluation Perspective (Acquisition de lexique bilingue d'expressions polylexicales: Une application à la traduction automatique statistique) [in French]
Mining a Bilingual Lexicon of MultiWord Expressions : A Statistical Machine Translation Evaluation Perspective This paper describes a method aiming to construct a bilingual lexicon of MultiWord Expressions (MWES) from a French-English parallel corpus. We first extract monolingual MWES from each part of the parallel corpus. The second step consists in acquiring bilingual correspondences of MWEs....
متن کاملPost-édition statistique pour l'adaptation aux domaines de spécialité en traduction automatique (Statistical Post-Editing of Machine Translation for Domain Adaptation) [in French]
RÉSUMÉ Cet article présente une approche de post-édition statistique pour adapter aux domaines de spécialité des systèmes de traduction automatique génériques. En utilisant les traductions produites par ces systèmes, alignées avec leur traduction de référence, un modèle de post-édition basé sur un alignement sous-phrastique est construit. Les expériences menées entre le français et l’anglais po...
متن کاملLes Triggers Inter-langues pour la Traduction Automatique Statistique. (Inter-lingual Triggers for Statistical Machine Translation)
Dans cet article, nous décrivons le concept de triggers inter-langues. Nous expliquons ensuite comment nous avons utilisé de tels triggers pour construire automatiquement un dictionnaire bilingue. Nous avons par la suite évalué notre dictionnaire bilingue en le comparant à deux dictionnaires existants, le premier fourni par ELRA et le second en libre accès sur Internet. Cependant, afin de rendr...
متن کاملPre-processing and Language Analysis for Arabic to French Statistical Machine Translation (Traduction automatique statistique pour l'arabe-français améliorée par le prétraitement et l'analyse de la langue) [in French]
متن کامل
Traduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français
The present research aims to exploit comparable corpora for Statistical Machine Translation (SMT). First, a hybrid approach based on statistical and linguistics-based information is proposed for bilingual terminology extraction from Wikipedia documents. Then, we propose a hybrid approach based on length and dictionary model for the alignment of the United Nations (UN) corpus at the sentence lev...
متن کامل