Extraction de données biographiques depuis Wikipedia
نویسنده
چکیده
RÉSUMÉ. L'utilisation du contenu des articles de Wikipedia est fréquente dans les recherches académiques. Les modalités pratiques d'exploitation sont cependant rarement analysées. Notre recherche porte sur l'extraction de données biographiques relatives à des personnalités originaires de Belgique. Notre recherche sera organisée en trois sections. Une première section proposera un état de l'art en matière d'extraction de données dans l'encyclopédie Wikipedia. Une seconde section présentera le cas pratique de l'extraction de données biographiques de personnalités belges. Différentes solutions seront discutées et la solution retenue sera mise en œuvre. Dans une troisième section, la qualité de l'extraction sera discutée. Des recommandations pratiques à destination des chercheurs souhaitant exploiter Wikipedia seront en outre proposées sur la base de notre cas pratique.
منابع مشابه
Caractérisation et extraction de biclusters de valeurs similaires avec l'analyse de concepts triadiques
Résumé. Le biclustering de données numériques est devenu depuis le début des années 2000 une tâche importante d’analyse de données, particulièrement pour l’étude de données biologiques d’expression de gènes. Un bicluster représente une association forte entre un ensemble d’objets et un ensemble d’attributs dans une table de données numériques. Les biclusters de valeurs similaires peuvent être v...
متن کاملExtraction des connaissances à partir du Web pour la recherche des images géoréférencées
Geolocalized databases are becoming necessary in a wide variety of application domains. The manual creation of such databases is an expensive operation which stimulated the interest for the automation of their construction, by mining geographic information from the Web. In this article, we present and evaluate a new automated approach for creating a geographical database. Our technique uses Wik...
متن کاملExtraction efficace de règles graduelles
Résumé. Les règles graduelles suscitent depuis quelques années un intérêt croissant. De telles règles, de la forme “Plus (moins) A1 et ... plus (moins) An alors plus (moins) B1 et ... plus (moins) Bn” trouvent application dans de nombreux domaines tels que la bioinformatique, les contrôleurs flous, les relevés de capteurs ou encore les flots de données. Ces bases, souvent composées d’un grand n...
متن کاملUn système de gestion de documents hétérogènes dédiés au patrimoine archéologique et gérés sur le réseau Internet. Le cas de l'épave étrusque du Grand Ribaud
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...
متن کاملTraMineR: une librairie R pour l'analyse de données séquentielles
TraMineR est une librairie pour l'environnement statistique R destinée à la fouille, la description et la visualisation de séquences d'états ou d'événements, et plus généralement de données séquentielles discrètes. La librairie est librement disponible sur le CRAN http://cran.r-project.org. Elle est principalement conçue pour l'analyse de données biographiques longitu-dinales dans le domaine de...
متن کامل