Playing with parsers (Jouer avec des analyseurs syntaxiques) [in French]

نویسنده

  • Éric Villemonte de la Clergerie
چکیده

Résumé. Nous présentons DYALOG-SR, un analyseur syntaxique statistique par dépendances développé dans le cadre de la tâche SPRML 2013 portant sur un jeu de 9 langues très différentes. L’analyseur DYALOG-SR implémente un algorithme d’analyse par transition (à la MALT), étendu par utilisation de faisceaux et de techniques de programmation dynamique. Une des particularité de DYALOG-SR provient de sa capacité à prendre en entrée des treillis de mots, particularité utilisée lors de SPMRL13 pour traiter des treillis en Hébreu et reprise plus récemment sur des treillis produits par SXPIPE pour le français. Disposant par ailleurs avec FRMG d’un analyseur alternatif pour le français, nous avons expérimenté un couplage avec DYALOG-SR, nous permettant ainsi d’obtenir les meilleurs résultats obtenus à ce jour sur le French TreeBank. Abstract. We present DYALOG-SR, a statistical dependency parser developed for the SPRML 2013 shared task over 9 very different languages. DYALOG-SR implements a shift-reduce parsing algorithm (a la MALT), extended with beams and dynamic programming techniques. One of the specificities of DYALOG-SR is its ability to handle word lattices as input, which was used for handling Hebrew lattices and more recently French ones produced by SXPIPE. Having access to FRMG, an alternative parser for French, we also tried a coupling with DYALOG-SR, providing us the best results so far on the French TreeBank Mots-clés : Analyse syntaxique, Analyse syntaxique par dépendances, faisceaux, Programmation Dynamique, Treillis de mots, Couplage d’analyseurs.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Developing efficient parsers in Prolog: the CLF manual (v1.0)

This document describes a couple of tools that help to quickly design and develop computer (formalized) languages. The rst one use Flex to perform lexical analysis and the second is an extention of Prolog DCGs to perfom syntactical analysis. Initially designed as a new component for the Centaur system, these tools are now available independently and can be used to construct e cient Prolog parse...

متن کامل

Parsing comparison across grammar formalisms using strongly equivalent grammars Comparison of LTAG and HPSG parsers: A case study

This article presents a novel approach to empirical comparison between parsers for different grammar formalisms such as LTAG and HPSG. The key idea of our approach is to use strongly equivalent grammars obtained by grammar conversion, which generate equivalent parse results for the same input. We validate our approach by giving a formal proof of strong equivalence for an existing grammar conver...

متن کامل

Towards a generic graph rewriting system to enrich syntactic structures (Vers un système générique de réécriture de graphes pour l'enrichissement de structures syntaxiques) [in French]

RÉSUMÉ Ce travail présente une nouvelle approche pour injecter des dépendances profondes (sujet des verbes à contrôle, partage du sujet en cas d’ellipses, . . .) dans un corpus arboré présentant un schéma d’annotation surfacique et projectif. Nous nous appuyons sur un système de réécriture de graphes utilisant des techniques de programmation par contraintes pour produire des règles génériques q...

متن کامل

Cross-framework parser stacking for data-driven dependency parsing

In this article, we present and evaluate an approach to the combination of a grammardriven and a data-driven parser which exploits machine learning for the acquisition of syntactic analyses guided by both parsers. We show how conversion of LFG output to dependency representation allows for a technique of parser stacking, whereby the output of the grammar-driven parser supplies features for a da...

متن کامل

Stratégies pour l'étiquetage et l'analyse syntaxique statistique de phénomènes difficiles en français : études de cas avec Talismane

RÉSUMÉ. Les outils statistiques robustes en TAL, tels que les étiqueteurs morphosyntaxiques et les analyseurs syntaxiques, utilisent souvent des descripteurs « pauvres », qui peuvent être appliqués facilement à n’importe quelle langue, mais ne prennent pas en compte les particularités de la langue. Dans cette étude, nous cherchons à améliorer l’analyse de deux phénomènes en français en injectan...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014