Constraint-Based Mining of Closed Patterns in Noisy n-ary Relations. (Fouille Sous Contraintes de Motifs Fermés dans des Relations n-aires Bruitées)
نویسنده
چکیده
Useful knowledge discovery processes can be based on patterns extracted from large datasets. Designing efficient data mining algorithms to compute collections of relevant patterns is an active research domain. Many datasets record whether some properties hold for some objects, e. g., whether an item is bought by a customer or whether a gene is over-expressed in a biological sample. Such datasets are binary relations and can be represented as 0/1 matrices. In such matrices, a closed itemset is a maximal rectangle of ’1’s modulo arbitrary permutations of the lines (objects) and the columns (properties). Thus, every closed itemset supports the discovery of a maximal subset of objects sharing the same maximal subset of properties. Efficiently extracting every closed itemset satisfying user-defined relevancy constraints has been extensively studied. Despite its success across many application domains, this framework often turns out to be too narrow. First of all, many datasets are n-ary relations, i. e., 0/1 tensors. Reducing their analysis to two dimensions is ignoring potentially interesting additional dimensions, e. g., where a customer buys an item (localized analysis) or when a gene expression is measured (kinetic analysis). The presence of noise in most real-life datasets is a second issue, which leads to the fragmentation of the patterns to discover. Generalizing the definition of a closed itemset to make it suit relations of higher arity and tolerate some noise is straightforward (maximal hyper-rectangle with an upper bound of ’0’s tolerated per hyper-plan). On the contrary, generalizing their extraction is very hard. Indeed, classical algorithms exploit a mathematical property (the Galois connection) of the closed itemsets that none of the two generalizations preserve. That is why our extractor browses the candidate pattern space in an original way that does not favor any dimension. This search can be guided by a very broad class of relevancy constraints the patterns must satisfy. In particular, this thesis studies constraints specifically designed for mining almost-persistent cliques in dynamic graphs. Our extractor is orders of magnitude faster than known competitors focusing on exact patterns in ternary relations or on noise-tolerant patterns in binary relations. Despite these results, such an exhaustive approach often cannot, in a reasonable time, tolerate as much noise as the dataset contains. In this case, complementing the extraction with a hierarchical agglomeration of the (insufficiently noise-tolerant) patterns increases the quality of the returned collection of patterns.
منابع مشابه
Extraction de motifs fermés dans des relations n-aires bruitées
La fouille de relations binaires a été très étudiée via notamment les usages multiples des ensembles fermés fréquents. Cependant, il est courant que les données à traiter se représentent dans des relations n-aires avec n ≥ 3 et il semble donc naturel de vouloir étendre le calcul de motifs fermés dans ce contexte (Ji et al., 2006; Jaschke et al., 2006; Cerf et al., 2008b). Dans le cas des relati...
متن کاملAllier CSPs et motifs locaux pour la découverte de motifs sous contraintes n-aires
Résumé. Dans cet article, nous étudions la relation entre la découverte de motifs sous contraintes et les CSPs (Constraint Satisfaction Problems) afin de définir des contraintes de plus haut niveau qui sont précieuses pour mener à bien des tâches de fouille de données. Pour cela, nous proposons une approche de modélisation et d’extraction de motifs sous contraintes n-aires exploitant les motifs...
متن کاملExtraction de concepts sous contraintes dans des données d'expression de gènes
L’une des activités les plus importantes en biologie est l’analyse des données d’expression de gènes. Les biologistes espèrent ainsi mieux comprendre les fonctions des gènes et leurs interactions. Nous étudions dans cet article une technique permettant d’aider à l’analyse de ces données d’expression : l’extraction de concepts sous contraintes. Pour cela, nous proposons d’extraire des fermés sou...
متن کاملExtraction de motifs n-aires utilisant la PPC
Dans cet article, nous proposons une approche PPC permettant d’extraire des motifs n-aires (i.e. combinant plusieurs motifs locaux) en fouille de données. Dans un premier temps, l’utilisateur modélise sa requête à l’aide de contraintes portant sur plusieurs motifs locaux. Puis, un solveur de contraintes génère l’ensemble correct et complet des solutions. Notre approche permet de modéliser de ma...
متن کاملDécouverte de motifs n-aires utilisant la programmation par contraintes. (Constraint Programming for mining n-ary patterns)
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کامل