Visualisation des motifs séquentiels extraits à partir d'un corpus en Ancien Français
نویسندگان
چکیده
Les travaux présentés dans cet article répondent aux besoins d’une experte médiéviste souhaitant découvrir des connaissances nouvelles dans un corpus de textes écrits en Ancien Français. Les connaissances extraites à partir de ce corpus sont sous forme de motifs séquentiels. Dans notre contexte, un motif séquentiel est une suite ordonnée d’itemsets (phrases). Un itemset est un ensemble d’items (mots). Par exemple, le motif <(chevalier dam)(roi)> extrait à partir de notre corpus signifie que, souvent, les mots "chevalier" et "dam" apparaissent ensemble au sein d’une même phrase avant l’apparition de "roi" dans une phrase suivante. Ceci permet aux experts d’analyser, sans a priori, les mots et enchaînements de mots qui apparaissent dans un même contexte, mettant ainsi en relief des associations susceptibles d’apporter des connaissances nouvelles à un expert. Notons que dans l’étude actuellement menée, l’experte médiéviste souhaite plus particulièrement découvrir des motifs séquentiels faisant intervenir des mots propres à la parenté. Les différentes étapes et fonctionnalités de notre logiciel sont décrites dans la section suivante.
منابع مشابه
Fouille de motifs séquentiels pour l'élicitation de stratégies à partir de traces d'interactions entre agents en compétition
Résumé. Pour atteindre un but, tout agent en compétition élabore inévitablement des stratégies. Lorsque l’on dispose d’une certaine quantité de traces d’interactions entre agents, il est naturel d’utiliser la fouille de motifs séquentiels pour découvrir de manière automatique ces stratégies. Dans cet article, nous proposons une méthodologie qui permet l’élicitation de stratégies et leur capacit...
متن کاملConstruction of a Free Large Part-of-Speech Annotated Corpus in French (Construction d'un large corpus écrit libre annoté morpho-syntaxiquement en français) [in French]
RÉSUMÉ Cet article étudie la possibilité de créer un nouveau corpus écrit en français annoté morphosyntaxiquement à partir d’un corpus annoté existant. Nos objectifs sont de se libérer de la licence d’exploitation contraignante du corpus d’origine et d’obtenir une modernisation perpétuelle des textes. Nous montrons qu’un corpus pré-annoté automatiquement peut permettre d’entraîner un étiqueteur...
متن کاملAnalyse de séquences d'événements avec TraMineR
Les méthodes de fouille de motifs séquentiels fréquents ont donné lieu, depuis le travail fondateur de Agrawal et Srikant (1995), à un grand nombre de travaux de recherche. La librairie TraMineR pour l’environnement statistique R cherche à rendre ces méthodes accessibles aux chercheurs de divers domaines désirant analyser ou visualiser des ensembles de séquences d’événements. Il est à noter que...
متن کاملSearch and Visualization of Semantically Related Words (Recherche et visualisation de mots sémantiquement liés) [in French]
RÉSUMÉ Nous présentons PatternSim, une nouvelle mesure de similarité sémantique qui repose d’une part sur des patrons lexico-syntaxiques appliqués à de très vastes corpus et d’autre part sur une formule de réordonnancement des candidats extraits. Le système, initialement développé pour l’anglais, a été adapté au français. Nous rendons compte de cette adaptation, nous en proposons une évaluation...
متن کاملMotifs séquentiels multidimensionnels étoilés
L’extraction de motifs séquentiels est un domaine de la fouille de données permettant de rechercher des corrélations fréquentes entre des valeurs en prenant en compte leur chronologie d’apparition. Dans le contexte du panier de la ménagère, ce type de méthodes permet par exemple l’extraction de règles de la forme 〈(TV,DV D)(magneto numerique)〉, indiquant qu’un nombre suffisamment important (au ...
متن کامل