Identificación automática del idioma de los registros bibliográficos

Identificación automática del idioma de los registros bibliográficos
20 de Abril de 2020

Automated language identification of bibliographic resources

 

Victoria Morris

Cataloging & Classification Quarterly, ISSN 1544-4554, Vol. 58, p. 76-89

Se describe el estudio de caso que ha realizado la British Library relacionado con el uso de técnicas de aprendizaje de máquinas o automático para asignar códigos de idioma a los registros bibliográficos. La identificación automática del lenguaje se refiere al proceso que es capaz de determinar el lenguaje natural en el que están escritos los textos a partir de un determinada información extraída del propio registro bibliográfico. El objetivo es

proporcionar información acerca del idioma del contenido de los recursos descritos. Se parte de la observación de que alrededor del 30% de los registros importados de otras fuentes que constan en el catálogo de la British Library no tienen información en las posiciones 35-37 del campo 008. La ausencia de un código de lengua en ese campo resulta problemática porque significa que hay más de cuatro millones de registros que son menos reconocibles y que se omiten cuando se hacen búsquedas de recursos en un determinado idioma. Así, las herramientas de identificación automática del lenguaje desarrolladas podrían ser usadas para mejorar y enriquecer los registros. La investigación está focalizada en el idioma del contenido del recurso y no del lenguaje de catalogación. El modelo estadístico bayesiano que se eligió para analizar los registros partía de las siguientes premisas: que los códigos de idioma de los registros son correctos; los campos MARC 245, 250, 490 y 880 están descritos en el idioma del propio contenido del documento; y que los registros del catálogo son monolingües. El análisis se estableció sobre la selección de un conjunto de registros perteneciente a la colección de recursos digitales que tuvieran un código MARC válido para las posiciones 35-37 del 008. Se excluyeron los códigos mis (miscelánea), mul (multilingüe), sgn (lenguaje de signos), und (indeterminado, y zxx(contenido no lingüístico). Durante la primera fase del proyecto se han asignado códigos de idioma a 1,15 millones de registros con una fiabilidad del 99,7%. De esta forma, se espera aplicar los instrumentos automatizados de identificación de idiomas que se han desarrollado para contribuir a la futura mejora de los registros importados del catálogo.

https://www.tandfonline.com/doi/full/10.1080/01639374.2019.1700201

Resumen elaborado por María Osuna González

 

Comentarios

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.