Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole
نویسنده
چکیده
A way to improve outputs produced by automatic speech recognition (ASR) systems isto integrate additional linguistic knowledge. Our research in this eld focuses on two aspects:morpho-syntactic information and thematic adaptation.In the rst part, we propose a new mode of integration of parts of speech in a post-processingstage of speech decoding. To do this, we tag N-best sentence hypothesis lists with a morpho-syntactic tagger built to take into account the speci cities of transcriptions. We reorder theselists by modifying the score computed by an ASR system at the sentence level to includemorpho-syntactic information. Experiments done on French-speaking broadcast news (Estercorpus) exhibit a signi cant improvement of the word error rate. Besides, we establish thecontribution of morpho-syntactic information to improve posterior based con dence measures.In the second more exploratory part, we are interested in thematically adapting the lan-guage model (LM) of an ASR system. We propose a scheme that enables us to specialize speechdecoding in an unsupervised way. We rst segment the studied document into thematically ho-mogeneous sections. To this end, we develop a new probabilistic framework to integrate di erentmodalities (lexical cohesion, acoustic clues, and linguistic markers) and show its relevance toimprove segmentation. We then build adaptation corpora retrieved from the Web by using aninnovative procedure. We nally modify the LM with these speci c corpora and show that, onthematic sections that are manually selected, this method signi cantly improves the LM, evenif the increase of the word error rate is slight.
منابع مشابه
Découvrir les thèmes d'un document pour en améliorer la segmentation thématique
La segmentation thématique et l’identification des thèmes d’un document sont souvent traitées comme des problèmes séparés, même si elles relèvent toutes deux de l’analyse thématique. Dans cet article, nous proposons d’examiner comment l’identification thématique peut contribuer à améliorer la segmentation de documents lorsque celle-ci ne s’appuie que sur la récurrence lexicale. Nous présentons ...
متن کاملContinuous space models with neural networks in natural language processing. (Modèles neuronaux pour la modélisation statistique de la langue)
Les modèles de langage ont pour but de caractériser et d’évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale dans de nombreux cadres d’application comme la reconnaissance automatique de la parole, la traduction automatique, l’extraction et la recherche d’information. La modélisation actuellement état de l’art est la modélisation "historique" dite n-gramme associée à d...
متن کاملÉtude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe
Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabesa pour but d’améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d’information....
متن کاملL'alignement des documents médiévaux
RÉSUMÉ. Le but de l’alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d’un même écrit. La plupart des méthodes utilisées dans la technique d’alignement reposent sur l’analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci constituent. Afin d’en améliorer l’efficacité, ...
متن کاملUtilisation de la syntaxe pour valider les réponses à des questions par plusieurs documents
RÉSUMÉ. Cet article présente FIDJI, un système de questions-réponses pour le français, combinant des informations syntaxiques sur la question et les documents avec des techniques plus traditionnelles du domaine, telles que la reconnaissance des entités nommées et la pondération des termes. Notamment, nous expérimentons dans ce système la validation des réponses dans plusieurs documents, ainsi q...
متن کامل