Investigar hasta qué punto se pueden recuperar palabras o frases con atributos específicos de las colecciones de textos digitales

Investigar hasta qué punto se pueden recuperar palabras o frases con atributos específicos de las colecciones de textos digitales
19 de Mayo de 2022

Investigating the extent to which words or phrases with specific attributes can be retrieved from digital text collections

 

Liezl H. Ball, Theo J.D. Bothma

Information research, ISSN 1368-1613, Vol. 27, n. 1, 2022

El artículo defiende que la habilidad para recuperar palabras y frases de diferentes apartados de un texto, o palabras y frases con atributos específicos, puede permitir a los investigadores ser específicos en sus búsquedas y obtener información relevante. Se pueden tener en cuenta muchos atributos cuando se trabaja con textos y palabras, y estos atributos se pueden capturar a través de metadatos granulares.

El objetivo del artículo es responder a tres cuestiones: qué metadatos granulares serían útiles para la recuperación de la información de colecciones de textos digitales a un nivel de detalle; de qué utilidad son las herramientas actuales para la recuperación de palabras o frases con atributos específicos; y que recomendaciones se pueden dar para el desarrollo de herramientas que permitan la recuperación de palabras y frases con atributos específicos. Para responder a la primera cuestión, se identificaron metadatos granulares, que están organizados en las siguientes categorías: monográficos, sintácticos, semánticos, funcionales y bibliográficos. La categoría de metadatos bibliográficos debería considerar no solo información a nivel documental, sino también metadatos en un texto, específicamente donde la información de una sección en un texto difiere de la información del documento. Después de identificar metadatos granulares útiles, se realizó una evaluación heurística. La evaluación de las herramientas actuales muestra que la recuperación a un nivel granular es limitada. Cada herramienta ofrece alguna búsqueda, pero ninguna herramienta cubre todas las categorías. Las herramientas también difieren en su nivel de dificultad. Algunas que ofrecen recuperación a nivel granular requieren comprensión de la estructura y codificación de datos. Debería hacerse más para permitir a los investigadores recuperar información de acuerdo con diferentes atributos, capturando metadatos granulares de forma sencilla y efectiva. Respondiendo a la tercera cuestión, se recomienda seguir investigando para mejorar la recuperación granular. Tal trabajo podría considerar la inclusión de metadatos semánticos y metadatos bibliográficos y permitir buscar en esos campos de los metadatos. Además, deberían desarrollarse herramientas que ofrezcan filtros o búsquedas en múltiples niveles de metadatos. Tales herramientas deberían ser amigables y no requerir un gran conocimiento lingüístico o uno o más lenguajes de búsqueda. Para posteriores investigaciones, se sugiere que las categorías de metadatos granulares expuestas en este artículo se usen cuando se desarrollen herramientas para la recuperación en colecciones de textos digitales. Los autores están particularmente interesados en una manera de capturar metadatos granulares para textos, y en cómo formalizar esto en un formato esquemático y codificado. Además, como los investigadores a menudo trabajan con grandes colecciones, debería explorarse la posibilidad de automatizar algunas de las codificaciones. Se debería desarrollar un prototipo de una herramienta experimental que permitiera al usuario recuperar palabras con ciertos atributos.

http://informationr.net/ir/27-1/paper917.html

Traducción de las conclusiones de la publicación

Comentarios

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.