Etiqueter un corpus oral par apprentissage automatique à l'aide de connaissances linguistiques
نویسندگان
چکیده
Thanks to the Eslo1 (« Enquête sociolinguistique d'Orléans », i.e. « Sociolinguistic Inquiery of Orléans) campain, a large oral corpus has been gathered and transcribed in a textual format. The purpose of the work presented here is to associate a morpho-syntactic label to each unit of this corpus. To this aim, we have first studied the specificities of the necessary labels, and their various possible levels of description. This study has led to a new original hierarchical structuration of labels. Then, considering that our new set of labels was different from the one used in every available software, and that these softwares usually do not fit for oral data, we have built a new labeling tool by a Machine Learning approach, from data labeled by Cordial and corrected by hand. We have applied linear CRF (Conditional Random Fields) trying to take the best possible advantage of the linguistic knowledge that was used to define the set of labels. We obtain an accuracy between 85 and 90%, depending of the parameters used.
منابع مشابه
Classification de courriers électroniques. Une approche par apprentissage basée sur des modèles linguistiques
RÉSUMÉ. Nous proposons une double amélioration des systèmes de filtrage de courriels existants. D’une part, en utilisant une méthode d’apprentissage automatique permettant à un système de filtrage d’élaborer des profils utilisateur. D’autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, n...
متن کاملApprentissage de scénarios à partir de séries temporelles multivariées
La construction automatique de scénarios à partir des signaux (séries temporelles) produits par les appareils de surveillance de patients en anesthésie réanimation est le premier pas vers l’élaboration de systèmes de monitoring intelligent. Mais dans ce contexte, les connaissances a priori ne sont pas suffisantes pour orienter efficacement un apprentissage à partir des données complexes que son...
متن کاملLogiciel d'aide à l'étiquetage morpho-syntaxique de textes de spécialité
Résumé. La compréhension de textes de spécialité nécessite un étiquetage morpho-syntaxique de bonne qualité. Or, lorsque les textes étudiés sont issus de domaines spécifiques et peu usités, il est rare de disposer de dictionnaires et autres ressources lexicales fiables. Le logiciel que nous proposons permet d’utiliser un étiquetage réalisé par un étiqueteur généraliste, puis d’améliorer cet éti...
متن کاملProsodic Phrase Break Prediction: Problems in the Evaluation of Models against a Gold Standard. (Prédiction des frontières prosodiques entre syntagmes : le problème de l'évaluation des modèles à l'aide d'un corpus de référence)
The goal of automatic phrase break prediction is to identify prosodic-syntactic boundaries in text which correspond to the way a native speaker might process or chunk that same text as speech. This is treated as a classification task in machine learning and output predictions from language models are evaluated against a ‘gold standard’: human-labelled prosodic phrase break annotations in transc...
متن کاملClassification automatique de courriers électroniques par des méthodes mixtes d'apprentissage
RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- CoRR
دوره abs/1003.5749 شماره
صفحات -
تاریخ انتشار 2010