Forage distribué des données : une comparaison entre l'agrégation d'échantillons et l'agrégation de règles
نویسندگان
چکیده
Résumé. Pour nous attaquer au problème du forage de très grandes bases de données distribuées, nous proposons d’étudier deux approches. La première est de télécharger seulement un échantillon de chaque base de données puis d’y effectuer le forage. La deuxième approche est de miner à distance chaque base de données indépendamment, puis de télécharger les modèles résultants, sous forme de règles de classification, dans un site central où l’agrégation de ces derniers est réalisée. Dans cet article, nous présentons une vue d’ensemble des techniques d’échantillonnage les plus communes. Nous présentons ensuite cette nouvelle technique de forage distribué des données où la mécanique d’agrégation est basée sur un coefficient de confiance attribué à chaque règle et sur de très petits échantillons de chaque base de données. Le coefficient de confiance d’une règle est calculé par des moyens statistiques en utilisant le théorème limite centrale. En conclusion, nous présentons une comparaison entre les meilleures techniques d’échantillonnage que nous avons trouvées dans la littérature, et notre approche de forage distribué des données (FDD) basée sur l’agrégation de modèles.
منابع مشابه
Une approche de réduction de dimensionnalité pour l'agrégation de préférences qualitatives
Résumé. Nous présentons une méthode de réduction de dimensionnalité pour des données de préférences multicritères lorsque l’espace des évaluations est un treillis distributif borné. Cette méthode vise à réduire la complexité des procédures d’apprentissage d’un modèle d’agrégation sur des données qualitatives. Ainsi nous considérons comme modèle d’agrégation l’intégrale de Sugeno. L’apprentissag...
متن کاملUn outil pour la visualisation de relations entre gènes
La reconstruction de réseaux de gènes à partir de données d’expression a suscité depuis quelques années un intérêt croissant. L’objectif est de proposer des interactions probables entre les gènes, qui pourront être ensuite plus profondément validées avec des expérimentations plus poussées. Plusieurs approches ont été proposées pour inférer ces réseaux de gènes comme les réseaux booléens ou l’an...
متن کاملLe forage distribué des données: une méthode simple, rapide et efficace
Résumé. Dans cet article nous nous attaquons au problème du forage de très grandes bases de données distribuées. Le résultat visé est un modèle qui soit et prédictif et descriptif, appelé méta-classificateur. Pour ce faire, nous proposons de miner à distance chaque base de données indépendamment. Puis, il s’agit de regrouper les modèles produits (appelés classificateurs de base), sachant que ch...
متن کاملComparaison des mesures d'intérêt de règles d'association : une approche basée sur des graphes de corrélation
Résumé. Le choix des mesures d’intérêt (MI) afin d’évaluer les règles d’association est devenu une question importante pour le post-traitement des connaissance en ECD. Dans la littérature, de nombreux auteurs ont discuté et comparé les propriétés des MI afin d’améliorer le choix des meilleures mesures. Cependant, il s’avère que la qualité d’une règle est contextuelle : elle dépend à la fois de ...
متن کاملUne comparaison de certains indices de pertinence des règles d'association
Résumé. Cet article propose une comparaison graphique de certains indices de pertinence pour évaluer l'intérêt des règles d'association. Nous nous sommes appuyés sur une étude existante pour sélectionner quelques indices auxquels nous avons ajouté l'indice de Jaccard et l'indice d'accords désaccords (IAD). Ces deux derniers nous semblent plus adaptés pour discriminer les règles intéressantes da...
متن کامل