Extraction de données biographiques depuis Wikipedia

نویسنده

  • Robert Viseur
چکیده

RÉSUMÉ. L'utilisation du contenu des articles de Wikipedia est fréquente dans les recherches académiques. Les modalités pratiques d'exploitation sont cependant rarement analysées. Notre recherche porte sur l'extraction de données biographiques relatives à des personnalités originaires de Belgique. Notre recherche sera organisée en trois sections. Une première section proposera un état de l'art en matière d'extraction de données dans l'encyclopédie Wikipedia. Une seconde section présentera le cas pratique de l'extraction de données biographiques de personnalités belges. Différentes solutions seront discutées et la solution retenue sera mise en œuvre. Dans une troisième section, la qualité de l'extraction sera discutée. Des recommandations pratiques à destination des chercheurs souhaitant exploiter Wikipedia seront en outre proposées sur la base de notre cas pratique.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Caractérisation et extraction de biclusters de valeurs similaires avec l'analyse de concepts triadiques

Résumé. Le biclustering de données numériques est devenu depuis le début des années 2000 une tâche importante d’analyse de données, particulièrement pour l’étude de données biologiques d’expression de gènes. Un bicluster représente une association forte entre un ensemble d’objets et un ensemble d’attributs dans une table de données numériques. Les biclusters de valeurs similaires peuvent être v...

متن کامل

Extraction des connaissances à partir du Web pour la recherche des images géoréférencées

Geolocalized databases are becoming necessary in a wide variety of application domains. The manual creation of such databases is an expensive operation which stimulated the interest for the automation of their construction, by mining geographic information from the Web. In this article, we present and evaluate a new automated approach for creating a geographical database. Our technique uses Wik...

متن کامل

Extraction efficace de règles graduelles

Résumé. Les règles graduelles suscitent depuis quelques années un intérêt croissant. De telles règles, de la forme “Plus (moins) A1 et ... plus (moins) An alors plus (moins) B1 et ... plus (moins) Bn” trouvent application dans de nombreux domaines tels que la bioinformatique, les contrôleurs flous, les relevés de capteurs ou encore les flots de données. Ces bases, souvent composées d’un grand n...

متن کامل

Un système de gestion de documents hétérogènes dédiés au patrimoine archéologique et gérés sur le réseau Internet. Le cas de l'épave étrusque du Grand Ribaud

HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...

متن کامل

TraMineR: une librairie R pour l'analyse de données séquentielles

TraMineR est une librairie pour l'environnement statistique R destinée à la fouille, la description et la visualisation de séquences d'états ou d'événements, et plus généralement de données séquentielles discrètes. La librairie est librement disponible sur le CRAN http://cran.r-project.org. Elle est principalement conçue pour l'analyse de données biographiques longitu-dinales dans le domaine de...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013