Extraction d'entités dans des collections évolutives
نویسندگان
چکیده
Résumé. Nous nous intéressons à l’extraction d’entités nommées avec comme but d’exploiter un ensemble de rapports pour en extraire une liste de partenaires. À partir d’une liste initiale, nous utilisons un premier ensemble de documents pour identifier des schémas de phrase qui sont ensuite validés par apprentissage supervisé sur des documents annotés pour en mesurer l’efficacité avant d’être utilisés sur l’ensemble des documents à explorer. Cette approche est inspirée de celle utilisée pour l’extraction de données dans les documents semi-structurés (wrappers) et ne nécessite pas de ressources linguistiques particulières ni de larges collections de tests. Notre collection de documents évoluant annuellement, nous espérons de plus une amélioration de notre extraction dans le temps.
منابع مشابه
Extraction automatique d'affixes pour la reconnaissance d'entités nommées chimiques
Résumé. Dans cet article nous détaillons une approche permettant de détecter des affixes et des termes déclencheurs à partir de dictionnaires de façon automatique en se basant sur l’algorithme de la plus longue sous-chaîne commune, dans le cadre de la reconnaissance d’entités nommées chimiques sur CHEMDNER. Nous verrons ensuite des méthodes de sélection et de tri afin de les intégrer au mieux d...
متن کاملLa prise en compte de la dimension temporelle dans la classification de données
Résumé. Dans un contexte d’ingénierie de la connaissance, l’analyse des données relationnelles évolutives est une question centrale. La représentation de ce type de données sous forme de graphe optimisé en facilite l'analyse et l'interprétation par l’utilisateur non expert. Cependant, ces graphes peuvent rapidement devenir trop complexes pour être étudiés dans leur globalité, il faut alors les ...
متن کاملExtraction et identification d'entités complexes à partir de textes biomédicaux
Résumé. Nous présentons ici un système d’extraction et d’identification d’entités nommées complexes à l’intention des corpus de spécialité biomédicale. Nous avons développé une méthode qui repose sur une approche mixte à base d’ensemble de règles a priori et de dictionnaires contrôlés. Cet article expose les techniques que nous avons mises en place pour éviter ou minimiser les problèmes de syno...
متن کاملCadre d'évaluation de systèmes de reconnaissance d'entités nommées spatiales
RÉSUMÉ. La reconnaissance d’entités nommées est une tâche de l’activité d’extraction d’information dans des corpus textuels. Des systèmes de reconnaissance d’entités nommées spatiales sont très largement utilisés, mais souvent sans en connaître les forces et faiblesses. C’est pourquoi nous proposons le cadre d’évaluation SNERBM (Spatial Name Entity Recognition BenchMark) comme référentiel commu...
متن کاملApproximation de collections de concepts formels par des bi-ensembles denses et pertinents
Résumé : Le calcul de concepts formels, et plus généralement l’usage des treillis de Galois pour l’extraction de connaissances, a motivé de très nombreuses recherches. Grâce à des progrès algorithmiques récents, ces techniques fournissent des motifs particulièrement intéressants pour l’analyse de grandes matrices codant l’expression de milliers de gènes dans des situations biologiques variées. ...
متن کامل