Arquivo da Web Española
O Arquivo da Web Española é a colección formada polos sitios web (incluídos blogues, foros, documentos, imaxes, vídeos, etc.) que se colleitan co fin de preservar o patrimonio documental español en Internet e asegurar o acceso ao mesmo.
Debido ao enorme tamaño de Internet e aos medios tecnolóxicos dos que dispomos actualmente, a día de hoxe é imposible aspirar á exhaustividad no arquivado web. Por iso, para tentar gardar a maior cantidade posible de información web, a Biblioteca Nacional de España optou por un modelo mixto que combina recoleccións masivas e selectivas, como fan outras bibliotecas nacionais do mundo.
Estas coleccións pódense consultar tanto na Biblioteca Nacional de España como nos Centros de Conservación das diferentes Comunidades Autónomas.
Inspirándose nas Directrices para a preservación do patrimonio dixital da UNESCO (2003) e na Recomendación da Comisión Europea do 24 de agosto de 2006 sobre a dixitalización e a accesibilidade en liña do material cultural e a conservación dixital, a BNE comezou a capturar páxinas e sitios web españois albergados no dominio .es, así como noutros dominios e subdominios xenéricos (.com, .edu, .gob, .org, .net, etc.).
Desde que o proxecto da BNE arrincou en 2009 ata finais de 2013 leváronse a cabo oito recoleccións masivas do dominio .es e dúas recoleccións selectivas. A primeira selectiva tivo como obxectivo cubrir de forma monográfica as Eleccións Xerais do 20 de novembro de 2011 e a segunda ocupouse de reunir recursos españois do ámbito das Humanidades. O resultado destas recoleccións, feitas por Internet Arquive para a BNE, foi trasladado aos servidores da Biblioteca a finais de 2014, grazas a un convenio de colaboración asinado con Rede.es. Rede.es colabora activamente coa Biblioteca no desenvolvemento tecnolóxico e de infraestruturas para a xestión do depósito legal das publicacións en liña.
En 2014 a Biblioteca instalou nunha contorna de probas o paquete de ferramentas de código aberto NetarchiveSuite para rastrexar e arquivar a Web. Con este sistema propio a Biblioteca realizou desde entón varias recoleccións selectivas sobre acontecementos relevantes para a historia e a cultura españolas, como a morte de Adolfo Suárez, a abdicación de Juan Carlos I, a proclamación de Felipe VI, as eleccións europeas de 2014, as locais e autonómicas de 2015 e as Eleccións Xerais de 2015-2016.
En 2015 publicouse o Real Decreto 635/2015, do 10 de xullo, polo que se regula o depósito legal das publicacións en liña, que entrou en vigor o 26 de outubro dese ano. Este real decreto apoia a actividade en materia de preservación de publicacións en liña que os centros de conservación levaron a cabo nos últimos anos, en particular en canto aos proxectos de arquivado web.
En 2016 levouse a cabo a primeira recolección masiva do dominio .es con recursos propios, que durou 3 meses.
Durante ese ano, ademais, consolidouse a cooperación entre os centros de conservación das Comunidades Autónomas e a BNE para xestionar e construír un depósito legal das publicacións en liña colaborativo. Cada vez son máis os centros que xestionan os seus propias colecciones web, utilizando as ferramentas que a BNE puxo a disposición de todos eles.
Un arquivo web é o conxunto de recursos colleitados da Web ao longo do tempo.
Estes recursos forman coleccións de sitios web agrupados por unha materia, unha temática, un evento ou por risco de desaparición. A recolección realízase de forma automatizada mediante niveltreadores ou robots que escanean os sitios web, copiando e gardando toda a información. Esta información almacénase, preserva e difunde a través do Arquivo da Web Española.
As recoleccións buscan reproducir con detalle o aspecto do sitio e as funcionalidades do mesmo dispoñibles durante a captura, de tal forma que a réplica do sitio web sexa tan navegable como a súa versión “viva”. Unha vez completado o rastrexo, as webs arquivadas son visualizadas na OpenWayback, unha aplicación que ofrece ao usuario a posibilidade de seleccionar que versión concreta dunha web determinada desexa consultar.
Os sitios web son previamente seleccionados por persoal bibliotecario especialista na conservación do patrimonio dixital. Os criterios de selección están definidos no documento Política de desenvolvemento de coleccións.
Toda a información gárdase nun formato de arquivo estandarizado denominado WARC (acrónimo de Web Arquive file format, ISO 28500), que comprime toda a información sobre os sitios web colleitados.
Do mesmo xeito que calquera outro material bibliográfico, a biblioteca arquiva os sitios web por diferentes motivos que xustifican a súa necesidade e utilidade para as xeracións futuras:
- Os contidos non almacenados nun arquivo da web desaparecerán de forma perpetua e irrecuperable.
- Son testemuñas da historia de internet e da creación de sitios web.
- Estudo da sociedade e a evolución dos costumes e ideas.
- Conservación do patrimonio cultural e documental en liña dun país.
- Gardado de contidos efémeros con grandes posibilidades de desaparecer a curto prazo.
- Herramienta de estudio e investigación de eventos con alta representación en Internet.
- Recuperación do contido de sitios web borrados ou desaparecidos.
Debido ao enorme tamaño de Internet e aos medios tecnolóxicos dos que dispomos actualmente, a día de hoxe é imposible aspirar á exhaustividad no arquivado web. Por iso, para tentar gardar a maior cantidade posible de información web, a Biblioteca Nacional de España optou por un modelo mixto que combina recoleccións masivas e selectivas. Este modelo está en consonancia con outras políticas de coleccións web internacionais, como é o caso doutras bibliotecas nacionais.
A ferramenta que usa a Biblioteca Nacional de España para arquivar a Web chámase NAS (NetArchiveSuite). Esta aplicación de código aberto foi deseñada en 2004 pola Biblioteca Real de Dinamarca, e actualmente utilízana tamén para este propósito outras bibliotecas nacionais. Para rastrexar utiliza o robot Heritrix, creado por Internet Arquive, que foi a primeira organización que rastrexou e arquivou a web desde 1996. Para visualizar o arquivado utilízase OpenWayback, unha aplicación creada polo Consorcio Internacional de Preservación de Internet (IIPC, polas súas siglas en inglés), que ofrece ao usuario a posibilidade de consultar un sitio web capturado nunha data determinada.
Os criterios xerais de selección están baseados no artigo 3 do Real Decreto 635/2015, do 10 de xullo, polo que se regula o depósito legal das publicacións en liña, segundo o cal os sitios web obxecto de depósito legal son aqueles que:
- conteñan patrimonio bibliográfico, sonoro, visual, audiovisual ou dixital das culturas de España;
- estean baixo o dominio .es e subdominios asociados, así como outros dominios do territorio nacional;
- estean albergados noutros dominios (.com, .net, .edu, .org, etc.), pero conteñan patrimonio documental español;
- estean en calquera das linguas oficiais do Estado;
- estean en calquera formato, incluíndo as publicacións neles contidas;
- sexan tanto de acceso libre como restrinxido.
Existen varias categorías de recursos web que é recomendable incluír nas seleccións de sitios web para que a mostra documental sexa o máis representativa posible:
- Medios de comunicación social: cabeceras de prensa, agencias de noticias, cadenas de radio y televisión.
- Organismos administrativos: Ministerios, Comunidades Autónomas, Concellos.
- Institucións políticas: partidos políticos.
- Institucións culturais: Museos, Arquivos, Bibliotecas, colexios, Universidades, Centros de investigación.
- Institucións científicas
- Institucións sanitarias
- Institucións deportivas
- Sitios web centrados en patrimonio natural e artístico
- Actos culturais, congresos, asembleas, xornadas…
- Sitios web de empresas privadas
- Asociacións: profesionais, ONG.
- Blogues e páxinas web de persoas relevantes relacionadas co tema da recolección.
- Redes sociais: Twitter (actual X), Facebook.
- Wikis: Wikipedia.
- Gravacións en vídeo: Youtube
Existen algunhas limitacións relacionadas con aspectos legais e técnicos que afectan á recolección das publicacións en liña.
Na vertente legal, segundo o Real Decreto 635/2015, quedan excluídos das recoleccións (art. 4):
- Os correos e a correspondencia privada.
- Os contidos que estean albergados unicamente nunha rede privada.
- Os datos persoais aos que só ten acceso un grupo restrinxido de persoas.
De conformidade co disposto nos artigos 6 e 7 do Real Decreto 635/2015, do 10 de xullo, a BIBLIOTECA NACIONAL DE ESPAÑA, Ou.A., exerce a súa función de captura e depósito das publicacións en liña que fosen obxecto de comunicación pública e os sitios web accesibles a través de redes de comunicacións. Esta captura e depósito realízase sen alteración dos contidos co propósito de garantir a súa integridade e rastrexabilidade histórica. En consecuencia, a BNE non se responsabiliza daqueles contidos que, formando parte da captura e depósito realizado, sexan contrarios á lei, a moral ou a orde pública, sendo responsables daqueles os titulares das estas comunicacións.
No aspecto técnico, algúns contidos, a pesar de estar en libre acceso en Internet, non se poden colleitar coas condicións tecnolóxicas actuais:
- Bases de datos, repositorios, catálogos.
- Visores de lectura interactivos.
- Contido en streaming.
- Arquivos na nube.
- Contidos detrás de filtros, listas desplegables ou casas de verificación.
- O Consello de Cooperación Bibliotecaria (CCB) a través do Grupo de traballo de Depósito Legal e Patrimonio Dixital promove a colaboración entre os distintos centros de conservación e a Biblioteca Nacional de España. O Arquivo da Web Española conta coa participación de máis de 40 conservadores web, quen desempeñan un papel fundamental na selección de sementes e no control de calidade do material preservado. O seu labor é esencial para a creación e o mantemento de coleccións autonómicas, así como para os eventos relacionados nos que participan.
- Rede de Bibliotecas Universitarias Españolas (REBIUN). En 2023 asinouse un Protocolo xeral de Actuación entre Crue-REBIUN e a BNE para levar a cabo actividades conxuntas relacionadas co Depósito de Publicacións en Liña e o Arquivo da Web Española. Actualmente, colaboran ao redor de 10 conservadores web, integrados no Grupo de Patrimonio Bibliográfico de REBIUN e procedentes do CSIC e diversas universidades españolas. O seu labor céntrase na selección de sementes relacionadas con temas de ciencia e tecnoloxía.
- Fundación Sancho o Sabio. Institución cultural centrada en recompilar, ordenar, conservar e difundir documentación referida á cultura vasca. Desde 2019 apoia con varios conservadores web para a selección e control de calidade de sitios web en Internet relacionados co País Vasco.
A Biblioteca Nacional de España participa en recoleccións colaborativas organizadas polo IIPC (International Internet Preservation Consortium), con motivo de acontecementos de interese internacional. Estes son algúns exemplos: