Non-Parametric Document Clustering by Ensemble Methods Clustering No Paramétrico de Documentos mediante Métodos de Consenso

نویسندگان

  • Edgar Gonzàlez
  • Jordi Turmo
چکیده

The biases of individual algorithms for non-parametric document clustering can lead to non-optimal solutions. Ensemble clustering methods may overcome this limitation, but have not been applied to document collections. This paper presents a comparison of strategies for non-parametric document ensemble clustering.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Combinación de clusterizadores difusos mediante voto posicional para clustering robusto de documentos

The combination of multiple clustering processes provides a means for building robust document clustering systems. This work focuses on the consolidation of fuzzy clusterings, proposing two consensus functions for soft cluster ensembles based on the Borda and Condorcet positional voting strategies. Experiments conducted on two document corpora reveal that the proposed soft consensus functions a...

متن کامل

Robust Document Clustering by Exploiting Feature Diversity in Cluster Ensembles

Resumen: Las prestaciones de los sistemas de clasificación no supervisada de documentos están supeditadas al uso de representaciones textuales óptimas, las cuales no son sólo dif́ıciles de determinar de antemano, sino que pueden variar de un problema de clasificación a otro. Este trabajo propone una metodoloǵıa basada en diversidad de representaciones y conjuntos de clasificadores no supervisado...

متن کامل

Identification of related multilingual documents using ant clustering algorithms Identificación de documentos multilingües relacionados mediante algoritmos de clustering de hormigas

This paper presents a document representation strategy and a bio-inspired algorithm to cluster multilingual collections of documents in the field of economics and business. The proposed approach allows the user to identify groups of related economics documents written in Spanish and English using techniques inspired on clustering and sorting behaviours observed in some types of ants. In order t...

متن کامل

Sistema de almacenamiento y gestión de documentos para el desarrollo de bibliotecas digitales

El sistema propuesto se ha diseñado para el almacenamiento y gestión de documentos de una biblioteca. La arquitectura del sistema es altamente genérica, con el objetivo de no restringir la clase de documentos gestionables por él. Con ello creamos un sistema base o primario que es independiente del tipo de documento, siendo capaz de almacenar documentos sin atenerse a su formato. El sistema es a...

متن کامل

Técnicas de representación de textos para clasificación no supervisada de documentos

This paper analyzes the influence of text representation in the document clustering problem. Taking a term-based vector space model representation as a reference, several low-dimensionality data representation techniques are analyzed (derived by means of terms extraction techniques such as Latent Semantic Analysis, Non-negative Matrix Factorization and Independent Component Analysis) in order t...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008