Etiqueter un corpus oral par apprentissage automatique à l'aide de connaissances linguistiques

نویسندگان

Iris Eshkol-Taravella

Isabelle Tellier

Taalab Samer

Sylvie Billot

چکیده

Thanks to the Eslo1 (« Enquête sociolinguistique d'Orléans », i.e. « Sociolinguistic Inquiery of Orléans) campain, a large oral corpus has been gathered and transcribed in a textual format. The purpose of the work presented here is to associate a morpho-syntactic label to each unit of this corpus. To this aim, we have first studied the specificities of the necessary labels, and their various possible levels of description. This study has led to a new original hierarchical structuration of labels. Then, considering that our new set of labels was different from the one used in every available software, and that these softwares usually do not fit for oral data, we have built a new labeling tool by a Machine Learning approach, from data labeled by Cordial and corrected by hand. We have applied linear CRF (Conditional Random Fields) trying to take the best possible advantage of the linguistic knowledge that was used to define the set of labels. We obtain an accuracy between 85 and 90%, depending of the parameters used.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Classification de courriers électroniques. Une approche par apprentissage basée sur des modèles linguistiques

RÉSUMÉ. Nous proposons une double amélioration des systèmes de filtrage de courriels existants. D’une part, en utilisant une méthode d’apprentissage automatique permettant à un système de filtrage d’élaborer des profils utilisateur. D’autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, n...

متن کامل

Apprentissage de scénarios à partir de séries temporelles multivariées

La construction automatique de scénarios à partir des signaux (séries temporelles) produits par les appareils de surveillance de patients en anesthésie réanimation est le premier pas vers l’élaboration de systèmes de monitoring intelligent. Mais dans ce contexte, les connaissances a priori ne sont pas suffisantes pour orienter efficacement un apprentissage à partir des données complexes que son...

متن کامل

Logiciel d'aide à l'étiquetage morpho-syntaxique de textes de spécialité

Résumé. La compréhension de textes de spécialité nécessite un étiquetage morpho-syntaxique de bonne qualité. Or, lorsque les textes étudiés sont issus de domaines spécifiques et peu usités, il est rare de disposer de dictionnaires et autres ressources lexicales fiables. Le logiciel que nous proposons permet d’utiliser un étiquetage réalisé par un étiqueteur généraliste, puis d’améliorer cet éti...

متن کامل

Prosodic Phrase Break Prediction: Problems in the Evaluation of Models against a Gold Standard. (Prédiction des frontières prosodiques entre syntagmes : le problème de l'évaluation des modèles à l'aide d'un corpus de référence)

The goal of automatic phrase break prediction is to identify prosodic-syntactic boundaries in text which correspond to the way a native speaker might process or chunk that same text as speech. This is treated as a classification task in machine learning and output predictions from language models are evaluated against a ‘gold standard’: human-labelled prosodic phrase break annotations in transc...

متن کامل

Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

CoRR

دوره abs/1003.5749 شماره

صفحات -

تاریخ انتشار 2010

Etiqueter un corpus oral par apprentissage automatique à l'aide de connaissances linguistiques

نویسندگان

چکیده

منابع مشابه

Classification de courriers électroniques. Une approche par apprentissage basée sur des modèles linguistiques

Apprentissage de scénarios à partir de séries temporelles multivariées

Logiciel d'aide à l'étiquetage morpho-syntaxique de textes de spécialité

Prosodic Phrase Break Prediction: Problems in the Evaluation of Models against a Gold Standard. (Prédiction des frontières prosodiques entre syntagmes : le problème de l'évaluation des modèles à l'aide d'un corpus de référence)

Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage

عنوان ژورنال:

اشتراک گذاری