A Grounded Theory of Information Quality in Web Archives

A Grounded Theory of Information Quality in Web Archives
4 de Mayo de 2018

Brenda Reyes Ayala

 

Bulletin of IEEE Technical Committee on Digital Libraries, ISSN 1937-7266, Vol. 14, n. 1, 2018

En 1996 una organización sin ánimo de lucro llamada Internet Archive empezó a recopilar páginas web con la intención de crear una biblioteca digital accesible a todo el mundo a través del almacenamiento masivo. En poco tiempo bibliotecas nacionales, organizaciones gubernamentales y universidades comenzaron a archivar páginas web para preservar su herencia digital. Pero tecnológicamente seguía siendo un gran reto. La Información de Calidad (IC) en el archivo de webs se definía por el archivo completo del material y la posibilidad de reproducir la forma original de la página web.

Se trata de una definición obsoleta. El objetivo de este estudio es realizar un nuevo pódelo de IC centrado en el usuario. Para ello utiliza una teoría razonada. El proceso de archivo de webs se realiza siguiendo un orden: selección, adquisición y acceso. El análisis de la calidad se realiza después de capturar la página, se hace manualmente, se visualiza la página usando Wayback Machine y se anotan los problemas de calidad. Para medir esta, se han creado dos categorías que deber ser analizadas: la noción de coherencia en un archivo de webs (que calcula la similitud entre dos versiones archivadas de la misma web) y la posibilidad de ser archivadas. Anteriores estudios de calidad se centraban en el sistema, pero este se fija en el usuario. La Internet Archive’s Archive-It (AIT) es una web que ayuda a las organizaciones a crear y gestionar sus propios archivos de webs. La autora analizó la relación entre esos clientes y AIT a través de la teoría razonada (que se basa en los datos obtenidos sistemáticamente y analizados). En la segunda fase estos datos se operan como definiciones matemáticas. Así, la IC se mide en diferentes niveles: capacidad de ser archivada, en qué medida el archivo está completo, la relevancia de los contenidos y la correspondencia con el original. A continuación la autora realiza complejas operaciones matemáticas. Su intención es que este modelo ayude a clarificar el concepto de calidad de la información en su aplicación a los archivos de webs.

Resumen elaborado por Antonio Rodríguez Vela

Comentarios

Texto sin formato

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.