Modelado de temas como herramienta para analizar las transcripciones de los chats de la biblioteca
Topic Modeling as a Tool for Analyzing Library Chat Transcripts.
HyunSeung Koh, Mark Fienup
Information technology and libraries, ISSN 2163-5226, Vol. 40, n. 3, 2021
Los servicios de chat de las bibliotecas son un canal de comunicación cada vez más importante para conectar a los usuarios con los recursos y servicios de la biblioteca. El análisis de las transcripciones de los chats podría proporcionar información a los bibliotecarios que les permita mejorar los servicios. Lamentablemente, las transcripciones de los chats consisten en datos no estructurados en formato de texto, lo cual hace que resulte poco práctico ir más allá del simple análisis cuantitativo (por ejemplo, la duración del chat, el recuento de mensajes, las frecuencias de las palabras) teniendo en cuenta las herramientas de las que disponen los bibliotecarios.
Como paso previo a una herramienta de análisis de transcripciones de chats más sofisticada, este estudio investigó la aplicación de diferentes tipos de técnicas de modelado de temas para analizar los datos de los chats del servicio de referencia de una biblioteca académica recopilados desde el 10 de abril de 2015 hasta el 31 de mayo de 2019, con el objetivo de extraer temas concretos y de fácil interpretación. En este trabajo, la precisión y la interpretabilidad de los temas – la calidad de los resultados – fueron medidas cualitativamente con estadísticas que valoran la coherencia de los temas. Asimismo, la precisión cualitativa y la interpretabilidad fueron medidas por el bibliotecario autor de este artículo en función del criterio subjetivo de si los temas estaban relacionados con preguntas frecuentes o con temas esperables en contextos de bibliotecas académicas. El estudio reveló que, desde el punto de vista de la evaluación cualitativa humana, el Análisis Probabilístico de Semántica Latente (pLSA) produjo temas más precisos e interpretables, lo cual no concuerda necesariamente con los hallazgos de la evaluación cuantitativa elaborada con los tres tipos de estadísticas de coherencia temática. Resulta interesante comprobar que la técnica más habitualmente utilizada, la Asignación Latente de Dirichlet (LDA), no funcionó necesariamente mejor que el pLSA. De igual modo, las técnicas semi-supervisadas con palabras de anclaje seleccionadas por el ser humano, tales como la Explicación de Correlación (CorEx) o el LDA guiado (GuidedLDA), no fueron necesariamente mejores que la técnica no supervisada de Distribución Multinomial de Dirichlet (DMM). Por último, el estudio descubrió que el uso de la transcripción completa, la cual incluye ambas partes de la interacción entre el usuario de la biblioteca y el bibliotecario, dio mejores resultados que el uso de solo la pregunta inicial formulada por el usuario al emplear diferentes técnicas para aumentar la calidad de las temáticas recogidas en los resultados.
https://doi.org/10.6017/ital.v40i3.13333
Traducción del resumen de la propia publicación