Aplicación del algoritmo RAKE en la indización de documentos digitales
Marcial Contreras Barrera
Investigación bibliotecológica: Archivonomía, Bibliotecología e Información, ISSN 2448-8321, Vol. 32, n. 75, 2018, p. 109-123
La importancia del estudio de los documentos digitales radica en que permite identificar sus características y la posibilidad de extraer patrones con el objetivo de proponer métodos que ayuden a su procesamiento, organización, consulta, y recuperación. Para ello se pueden utilizar métodos basados en estadística, lingüística o la combinación de ambos. Los métodos para el reconocimiento de términos tienen como objetivo la extracción de términos simples o compuestos a través de técnicas basadas en modelos matemáticos o lingüísticos.
La extracción de términos es utilizada para identificar palabras clave a través de procedimientos manuales o automatizados. Esto permite el desarrollo de ontologías utilizadas en la web semántica, la creación de glosarios e índices de manera automatizada y el agrupamiento de documentos. La identificación de términos suele ser una actividad que consume mucho tiempo, por lo que es necesario el uso de la tecnología para facilitar el proceso. En la actualidad se han desarrollado métodos automatizados que permiten agilizar la identificación y extracción manual con la meta de procesar el mayor número de documentos de manera rápida y precisa. El método de la ley de Zipf y el punto de transición de Goffman son utilizados en la identificación de las palabras clave, pero no permite la identificación de palabras clave multipalabra. Se han desarrollado métodos basados en la lingüística, dando origen al área del procesamiento del lenguaje natural (PLN) para el procesamiento de los documentos digitales. Los métodos desarrollados en esta área toman en consideración la estructura gramatical y partes de la oración para el análisis de los documentos, realizando un análisis léxico, morfológico, sintáctico y semántico. Otro de los métodos empleados en el procesamiento de los documentos digitales es el llamado algoritmo C-value/NCvalue, un método híbrido que utiliza la lingüística y la estadística para la extracción de términos. El método RAKE (Rapid Automatic Keyword Extraction), de tipo estadístico, ha sido utilizado para identificar y extraer palabras clave compuestas para más de una palabra en documentos en inglés. El objetivo de este trabajo es adaptar y aplicar el método RAKE para usarse en la identificación de términos formados por una o más palabras en español. Con las adaptaciones realizadas, se desarrolló un sistema de cómputo en el lenguaje de programación PHP y el manejador de bases de datos MySQL. Para el funcionamiento del algoritmo, es necesaria la definición de tres parámetros de entrada: lista de stopwords (stoplist), lista de delimitadores de frases y lista de palabras delimitadoras. El proceso de evaluación se lleva a cabo identificando las palabras clave asignadas por el autor del artículo y las calculadas por el método RAKE. Los resultados tras varias pruebas en diversos artículos demuestran que el grado de precisión del método RAKE es adecuado en la identificación de palabras clave en idioma español, con una consistencia de entre el 25% y el 60%. Con el desarrollo y aplicación de este tipo de tecnología se tienen los recursos que facilitan y agilizan el procesamiento de documentos digitales.
Resumen elaborado por Antonio Rodríguez Vela