Nettoyage de données guidé par la sémantique inter-colonnes
نویسندگان
چکیده
De nos jours, il est intéressant de développer de nouveaux outils d’intégration et de manipulation de données (ETL) afin d’aider à mieux comprendre la sémantique et la structure des données manipulées Boufarès et al. (2013), Ben Salem (2015). Nous réalisons ce travail en collaboration avec la société Talend (éditeur d’un ETL). La première partie du projet a traité des anomalies inter-lignes une fois la sémantique de la colonne est connue et ses anomalies corrigées. La deuxième phase du projet consiste à découvrir d’éventuels liens sémantiques inter-colonnes afin de corriger d’autres types d’anomalies . La vérification des contraintes de dépendances permettra de corriger les anomalies telles que les valeurs nulles et certaines dépendances fonctionnelles. La reconnaissance sémantique des données est présentée dans le premier paragraphe. La section deux aborde l’étape de nettoyage de données intra et intercolonnes. (1) La Catégorisation sémantique des données consiste à déterminer le sens de chaque colonne d’une source de données S. En effet, pour pouvoir qualifier une donnée syntaxiquement incorrecte, il faudrait l’évaluer dans son contexte. Plusieurs exemples peuvent illustrer nos propos : (i) La chaîne de caractères "Pari" ne peut être considérée incorrecte syntaxiquement que s’il s’agit du nom en français de la ville "Paris" ; (ii) Les mots "Pékin" et "Beijing" désignent la même chose dans deux langues différentes, s’il l’on sait qu’il s’agit de noms de villes. "Beijing" pourrait être considérée sémantiquement incorrecte si la langue dominante est le français ; (iii) Les deux chaînes de caractères "16-10-1996" et "10-16-1996" représentent la même information de type date définie par une expression régulière. Le format n’est pas le même. Pour ce faire nous utilisons des connaissances stockées dans un réferentiel appelé dictionnaire de données (DD), Zaidi et al. (2015), identifiées (i) par extension, c’est une liste donnée à priori tels que des noms de villes ou des mots clés ; (ii) par intention qui sont des connaissances qui vérifient des propriétés telles que des expressions régulières (un Email ou une date). Chaque catégorie correspond à un seul type de données (String, Nombre ou Date). La reconnaissance de la structure sémantique de données (le processus de catégorisation) renvoie un nom sémantique (une catégorie) à chaque colonne, une sous-catégorie (la langue), un type de données (domaine syntaxique), des contraintes (intra et inter-colonnes) et des commentaires. La reconnaissance sémantique consiste à trouver des similarités entre les données de S et celles de DD afin d’inférer la catégorie de chaque colonne en utilisant des mesures de distance de similarité avec les méthodes "s’écrit comme" et "se prononce comme" telles que Jaro-Winkler et Soundex. La reconnaissance de dépendances sémantiques inter-colonnes
منابع مشابه
Une approche combinée pour l'enrichissement d'ontologie à partir de textes et de données du LOD
Résumé. Cet article porte sur l’étiquetage automatique de documents décrivant des produits, avec des concepts très spécifiques traduisant des besoins précis d’utilisateurs. La particularité du contexte est qu’il se confronte à une triple difficulté : 1) les concepts utilisés pour l’étiquetage n’ont pas de réalisations terminologiques directes dans les documents, 2) leurs définitions formelles n...
متن کاملSous-échantillonnage topographique par apprentissage semi-supervisé
Résumé. Plusieurs aspects pourraient influencer les systèmes d’apprentissage existants. Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d’observations appartenant à une classe, dépasse fortement celui des observations dans les autres classes. Dans ce type de cas assez fréquent, le système d’apprentissage a des difficultés au cours de la phase d’entraînement liées au ...
متن کاملCorroboration de vues discordantes fondée sur la confiance∗
Résumé. Cet article traite de la corroboration d’informations, dans le contexte de vues exprimant des opinions sur des faits de façon éventuellement contradictoire. Il s’agit de prédire si un fait est vrai ou faux. Des méthodes d’agrégation simples comme le vote donnent déjà de bons résultats, mais nous présentons dans cet article des algorithmes qui tiennent compte de la confiance dans les vue...
متن کاملDétection de clefs pour l'interconnexion et le nettoyage de jeux de données
Résumé : Cet article propose une méthode d’analyse de jeux de données du Web publiés en RDF basée sur les dépendances de clefs. Ce type particulier de dépendances fonctionnelles, largement étudié dans la théorie des bases de données, permet d’évaluer si un ensemble de propriétés constitue une clef pour l’ensemble de données considéré. Si c’est le cas, il n’y aura alors pas deux instances posséd...
متن کاملConception assistée de MD. Une démarche et un outil
RÉSUMÉ. Pour assister le concepteur décisionnel dans la construction des schémas de magasins de données en étoile à partir d'une source de données relationnelle, nous proposons une démarche et un outil indépendants de la sémantique de tout système d'information source. Notre démarche procède à une classification des relations en relationentité et relation-association et, se base sur la sémantiq...
متن کامل