De l'importance du prétraitement des données pour l'utilisation de l'inférence grammaticale en Web Usage Mining
نویسنده
چکیده
Résumé. LeWeb Usage Mining est un processus d’extraction de connaissance qui permet la détection d’un type de comportement usager sur un site internet. Cette tâche relève de l’extraction de connaissances à partir de données : plusieurs étapes sont nécessaires à la réalisation du processus complet. Les données brutes, utilisées et souvent incomplètes correspondent aux requêtes enregistrées par un serveur. Le pré-traitement nécessaire de ses données brutes pour les rendre exploitables se situe en amont du processus et est donc très important. Nous voulons travailler sur des modèles structurés, issus de l’inférence grammaticale. Nous détaillons un ensemble de techniques de traitement des données brutes et l’évaluons sur des données artificielles. Nous proposons, enfin, des expérimentations mettant en évidence l’affectation des algorithmes classiques d’inférence grammaticale par la mauvaise qualité des logs bruts.
منابع مشابه
Adaptation du boosting à l'inférence grammaticale via l'utilisation d'un oracle de confiance
Résumé : Cet article présente une adaptation du boosting à l’inférence grammaticale. Notre but est d’améliorer les performances d’un algorithme à base de fusion d’états, en présence de données bruitées. Notre algorithme de boosting utilise une nouvelle règle de mise à jour des poids qui tient compte d’une information supplémentaire fournie par un oracle. Cette information est une évaluation de ...
متن کاملTraitement et exploration du fichier Log du Serveur Web pour l'extraction des connaissances : Web Usage Mining
Résumé : Le but dans ce travail consiste à concevoir et réaliser un Outil, en se basant sur l’ECD (Extraction de la Connaissance a partir de bases de données), en utilisant les concepts du Web Usage Mining, pour offrir aux web masters l’ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les bonnes décisions. Il s’agit en faite, d’extraire de l’information à p...
متن کاملPrétraitement de grands ensembles de données pour la fouille visuelle
Résumé. Nous présentons une nouvelle approche pour le traitement des ensembles de données de très grande taille en fouille visuelle de données. Les limites de l’approche visuelle concernant le nombre d’individus et le nombre de dimensions sont connues de tous. Pour pouvoir traiter des ensembles de données de grande taille, une solution possible est d’effectuer un prétraitement de l’ensemble de ...
متن کاملVers une Ingénierie Ontologique à Base du Web Usage Mining
Résumé. Récemment, de nouvelles approches ont intégré l’utilisation de techniques de fouille de données dans le processus d’enrichissement d’ontologies. En effet, les deux domaines, fouille de données et méta-données ontologiques sont extrêmement liés : d’une part les techniques de fouille de donnée aident à la construction du Web sémantique, d’autre part le Web sémantique aide à l’extraction d...
متن کاملEvolution du système national d’information sanitaire de la république démocratique du Congo entre 2009 et 2015
Résumé Introduction: Lancé en 1987, le Système national d'information sanitaire (SNIS) de la République Démocratique du Congo (DR Congo) a été évalué en 2009 et 2015 moyennant l'outil HMN (Health metrics network). L'objectif de cette étude était d'estimer les progrès réalisés entre ces deux évaluations. Méthodes: Il s'agissait d'une analyse des données secondaires des évaluations du SNIS, qui a...
متن کامل