An Innovative Two-Stage WSD Unsupervised Method Un Innovador Método No Supervisado para Desambiguación de Sentidos de Palabras basado en dos etapas
نویسندگان
چکیده
An unsupervised method for word sense disambiguation is proposed. The sense of the word is chosen to be the most similar to the senses of other words that appear in the corpus in similar contexts. Training consists of building a weighted list of related words (quasi-synonyms) for each word; the weights are obtained by measuring similarity between the word’s contexts. We adapt the algorithm of McCarthy et al. 2004 for finding the best sense in each occurrence, instead of finding the predominant sense of each word in the entire corpus. Their maximization algorithm allows then each quasi-synonym to accumulate a score for each ambiguous word sense; the sense with the highest score is chosen. We obtain a top precision of 69.86% using the same corpus for training and disambiguating.
منابع مشابه
Nueva Propuesta de Desambiguación de Sentidos de Palabras para nombres en un sistema de Búsqueda de Respuestas
Resumen: Este artículo describe el impacto de un algoritmo de Desambiguación de Sentidos de Palabras (WSD) para nombres en AliQAn, el sistema de Question Answering con el cual hemos participado en el CLEF-2005. Al aplicar el WSD tradicional, el rendimiento se decrementa en un 4.7% en el Mean Reciprocal Rank (MRR). Para resolver este problema, proponemos dos aplicaciones de WSD: (1) elegir un gr...
متن کاملDesarrollo de un modelo para encontrar la similitud semántica multilingüe
Resumen. En el presente trabajo se desarrollan dos modelos para detectar el grado de similitud semántica entre pares de sentencias. El primer modelo está basado en aprendizaje supervisado, este utiliza un vector compuesto por dieciséis características para la representación de cada par de sentencias, con el que se entrena un clasificador. El segundo es un modelo no supervisado, el cual, basa su...
متن کاملEstudio sobre métodos tipo Lesk usados para la desambiguación de sentidos de palabras
Resumen. La ambigüedad semántica es un problema que se presenta en todos los lenguajes naturales. Podríamos decir que para los seres humanos la ambigüedad en el lenguaje pasa desapercibida, debido a que la resolvemos casi inconscientemente utilizando la realidad en que vivimos, el contexto y el conocimiento que poseemos sobre algunos temas. Pero para las computadoras no es así. En el área de pr...
متن کاملUtilizando WordNet para Complementar la Información de Entrenamiento en la Identificación del Significado de las Palabras
La desambiguación del significado de las palabras se ha desarrollado como una subárea del Procesamiento del Lenguaje Natural (PLN), donde el objetivo es determinar el sentido correcto de aquellas palabras que tienen más de un significado, no es una tarea final en sí misma, sino una tarea intermedia necesaria en variadas aplicaciones del procesamiento del lenguaje natural. La resolución de la am...
متن کاملDesarrollo de un compresor de textos orientado a palabras basado en PPM
Resumen Reducir el espacio de almacenamiento y el tiempo de transferencia se ha vuelto un aspecto fundamental en las Bases de Datos Textuales. En este trabajo se presenta un nuevo compresor, denominado PPM orientado a palabras (SWPPM), en el que se aplican los modelos estad́ısticos propios de PPM utilizando como śımbolos de entrada las palabras. Presenta varios desaf́ıos técnicos para los que es ...
متن کامل