La BNE guarda un año más todos los sitios web con dominio .es
La BNE ha lanzado la recolección que lleva a cabo anualmente de todos los sitios web con dominio .es como parte de su labor para preservar el patrimonio documental español en Internet.
En 2020 la web española está formada por más de 1.930.000 sitios web, de los que se han recolectado en torno a 50 terabytes de información. Aunque el número de dominios ha aumentado con respecto al año anterior, la cantidad de información publicada es ligeramente menor.
Lo que se publica en Internet es objeto de conservación desde 2009, más aun teniendo en cuenta que la información en línea es especialmente efímera. La BNE, por ley, tiene la finalidad de conservar este patrimonio para que no se pierda. Por ello realiza recolecciones masivas de los sitios web con dominio .es, sin exclusiones ni selecciones, lo que permite obtener un panorama global de la web española.
Para guardar los contenidos, la Biblioteca utiliza un software de recolección automático que utiliza unas arañas que rastrean la web y guardan los contenidos pinchando y descargando la información de los enlaces que encuentra. El contenido se guarda en un formato que permite la consulta de los sitios web tal como se haría navegando por Internet. A las recolecciones se les establece un límite de tamaño de descarga por cada sitio web para evitar la sobrecarga y saturación del sistema de recolección. La BNE establece un límite de 150 Megabytes por cada sitio web, por lo que una vez llegado a este límite la recolección para, para continuar con el siguiente sitio web. Este año y con esta configuración, se ha logrado guardar el 87% de los sitios web de manera completa.
Otras recolecciones: el coronavirus en la web
Las recolecciones masivas se complementan con las selectivas, que recogen con mayor profundidad y frecuencia una muestra más pequeña de sitios web en cualquier dominio (.com,.net, etc.) que se seleccionan por su relevancia para la historia, la sociedad y la cultura. Para realizar estas recolecciones la BNE trabaja en colaboración con especialistas de las bibliotecas regionales.
Actualmente, una de las recolecciones selectivas en las que se está trabajando con más intensidad es la que reúne los sitios web relacionados con el Coronavirus y la situación que ha provocado su propagación. Esta colección reúne más de 4.000 webs que abarcan múltiples tipos de sitios relacionados con la enfermedad, la situación creada y sus consecuencias. Contiene tanto páginas de índole más oficial (organismos públicos, partidos políticos, medios de comunicación…) como páginas surgidas de una manera más espontánea, como iniciativas ciudadanas y vecinales, actividades para hacer en familia, memes, etc. También cuenta con más de 1.300 perfiles y temas de redes sociales. Hasta el momento se han recolectado 30 Terabytes de información, más de la mitad de lo que se guarda en una recolección masiva. El número de páginas que están apareciendo es inmenso y en su mayoría serán sitios que desaparecerán una vez haya pasado esta gran crisis. La colección de sitios web será una de las mayores fuentes de información sobre el Covid19.
Toda la información conservada en el Archivo de la Web Española es consultable a través de terminales informáticos situados en las diferentes salas de la Biblioteca Nacional de España, así como desde las bibliotecas regionales de las Comunidades Autónomas.