Indización automática de artículos científicos sobre Biblioteconomía y Documentación con SISA, KEA y MAUI

Indización automática de artículos científicos sobre Biblioteconomía y Documentación con SISA, KEA y MAUI
9 de Enero de 2023

Isidoro Gil Leiva, Pedro Díaz Ortuño, Renato Fernandes Corrêa

Revista Española De Documentación Científica, ISSN: 0210-0614, Vol. 4, n. 45, 2022, p. 49-65

El presente texto utiliza una metodología analítica y comparativa para comprender y evaluar los sistemas de indización automática realizada por especialistas. Los sistemas evaluados son: SISA (AutomaticIndexing System), KEA (Keyphrase Extraction Algorithm) y MAUI (Multi-Purpose Automatic Topic Indexing). Para emplear esta metodología utilizaron una colección documental de 230 artículos científicos de la Revista Española de Documentación Científica, publicada por el Consejo Superior de Investigaciones Científicas(CSIC), de los cuales 30 se utilizaron para tareas formativas y no formaban parte del conjunto de pruebas de evaluación, todos ellos, además, estaban en español. La indexación, fue realizada por indizadores humanos utilizando un vocabulario controlado en la base de datos InDICES, también perteneciente al CSIC. A lo largo del artículo, se pueden encontrar tablas-resumen con las comparativas de estos tres sistemas, aparte de diversas representaciones estadísticas que facilitan la comprensión y la lectura de la investigación exhaustiva realizada. Después de que analizaran estos sistemas, observaron que SISA utiliza un algoritmo basado en reglas centrado en la posición que ocupan los términos en los documentos, mientras que KEA y MAUI, producen términos de indexación mediante un modelo de aprendizaje automático. Estas no son las únicas diferencias que existen entre los sistemas, pues los autores, muestran que SISA arroja mucho más resultados que los otros dos debido a que el modelo que utilizan para indexar se asemeja más a la indexación que realizan los profesionales de las bases de datos. A la hora de crear publicaciones que permitan un mayor procesamiento y reutilización de datos automáticos, concuerdan en que SISA, vuelve a estar por encima de los otros dos casos porque es capaz de manejar documentos XML y documentos generados desde JATS (Journal Article Tag Suite). Para finalizar, los autores comentan que sería útil replicar los experimentos realizados a través de otras disciplinas, otros indexadores y otros vocabularios controlados, para poder confirmar si el mayor nivel de rendimiento alcanzado por la metodología implementada en SISA aún supera los algoritmos de aprendizaje automático de KEA y MAUI.

https://redc.revistas.csic.es/index.php/redc/article/view/1371

Comentarios

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.