Stratégies pour l'étiquetage et l'analyse syntaxique statistique de phénomènes difficiles en français : études de cas avec Talismane
نویسنده
چکیده
RÉSUMÉ. Les outils statistiques robustes en TAL, tels que les étiqueteurs morphosyntaxiques et les analyseurs syntaxiques, utilisent souvent des descripteurs « pauvres », qui peuvent être appliqués facilement à n’importe quelle langue, mais ne prennent pas en compte les particularités de la langue. Dans cette étude, nous cherchons à améliorer l’analyse de deux phénomènes en français en injectant des connaissances plus riches : l’étiquetage morphosyntaxique du mot que et l’analyse syntaxique de la coordination. Nous comparons plusieurs techniques : la transformation automatique du corpus vers d’autres normes d’annotation avant l’entraînement, l’ajout de descripteurs ciblés et riches lors de l’entraînement, et l’ajout de règles symboliques qui contournent le modèle statistique lors de l’analyse. Nous atteignons une réduction du taux d’erreur de 55 % pour l’étiquetage de que, et de 37 % pour les structures coordonnées.
منابع مشابه
Ontologies et raisonnement à partir de cas : Application à l'analyse des risques industriels
L’analyse de risques est un processus visant à décrire les scénarios conduisant à des phénomènes dangereux et à des accidents potentiels sur une installation industrielle. Pour réaliser une analyse de risques, un expert dispose de nombreuses ressources : rapports, études de dangers, bases d’accidents, etc. Ces ressources sont cependant souvent difficiles à exploiter parce qu’elles ne sont pas s...
متن کاملAPPLYING A BEAM SEARCH TO TRANSITION-BASED DEPENDENCY PARSING: A CASE STUDY FOR FRENCH WITH THE TALISMANE SUITE (L'apport du faisceau dans l'analyse syntaxique en dépendances par transitions : études de cas avec l'analyseur Talismane) [in French]
1B%-#G(&('%-H$ )I$ 3J"K0-$ B%"!-$ 10$ !"#'(&5$ !#)!)'-$ 0&-$ '-0.-$ ').0%()&$ 3)GG-$ -&%#B-$ 1-$ -&$ $%#"&'+)#G-$0&$%-L%-$ M#0%$-&$5#"!J-$1-$1B!-&1"&3-'H$5B&B#".-G-&%$1B3)G!)'B$-&$K0"%#-$G)10.-'$7'-5G-&%"%()&$ -&$!J#"'-'H$-&$G)%'H$B%(K0-%"5-$ "0$G)10.-$'0(2"&%N$O&$'"(%$3-!-&1"&%$K0-$3-#%"(&-'$"GM(50P%B'$&-$!-02-&%$!"'$Q%#-$ .-2B-'$ '"&'$ !#-&1#-$ -&$ 3)&'(1B#"%()&$ .-$ &(2-"0$ '0!B#(-0#N$ R"&'$...
متن کاملOn the Effect of Head Tagging on Parsing Discontinuous Dependencies in French (Influence de l'étiquetage syntaxique des têtes sur l'analyse en dépendances discontinues du français) [in French]
RÉSUMÉ Dans cet article nous souhaitons mettre en évidence l’utilité d’un étiquetage syntaxique appliqué en amont d’une analyse syntaxique en dépendances. Les règles de la grammaire catégorielle de dépendances du français utilisées pour l’analyse gèrent les dépendances discontinues et les relations syntaxiques à longue distance. Une telle méthode d’analyse génère un nombre conséquent de structu...
متن کاملPlaying with parsers (Jouer avec des analyseurs syntaxiques) [in French]
Résumé. Nous présentons DYALOG-SR, un analyseur syntaxique statistique par dépendances développé dans le cadre de la tâche SPRML 2013 portant sur un jeu de 9 langues très différentes. L’analyseur DYALOG-SR implémente un algorithme d’analyse par transition (à la MALT), étendu par utilisation de faisceaux et de techniques de programmation dynamique. Une des particularité de DYALOG-SR provient de ...
متن کاملManagement of patients with low back pain: a survey of French chiropractors
Contexte: Peu d’informations du niveau de consensus de prise en charge des chiropracteurs français sont connues. Une étude suédoise a montré un consensus de stratégie de prise en charge (SPC) de chiropracteurs pour neuf scenarii de douleur de bas du dos. Ces résultats pouvaient-ils être reproduits avec des chiropracteurs français? Objectifs: 1) Mesurer le taux de consensus de SPC pour neuf scen...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- TAL
دوره 56 شماره
صفحات -
تاریخ انتشار 2015