Arxiu de la Web Espanyola

L'Arxiu de la Web Espanyola és la col·lecció formada pels llocs web (inclosos blogs, fòrums, documents, imatges, vídeos, etc.) que es recol·lecten amb la finalitat de preservar el patrimoni documental espanyol en Internet i assegurar l'accés a aquest.

A causa de l'enorme grandària d'Internet i als mitjans tecnològics dels quals disposem actualment, avui dia és impossible aspirar a l'exhaustivitat en l'arxivat web. Per això, per a intentar guardar la major quantitat possible d'informació web, l'Biblioteca Nacional de España ha optat per un model mixt que combina recol·leccions massives i selectives, com fan altres biblioteques nacionals del món.

Aquestes col·leccions es poden consultar tant en l'Biblioteca Nacional de España com en els Centres de Conservació de les diferents Comunitats Autònomes

 

Llocs web arxivats 

 

Història de la col·lecció

Inspirant-se en les Directrius per a la preservació del patrimoni digital de la UNESCO (2003) i en la Recomanació de la Comissió Europea de 24 d'agost de 2006 sobre la digitalització i l'accessibilitat en línia del material cultural i la conservació digital, la BNE va començar a capturar pàgines i llocs web espanyols albergats en el domini .és, així com en altres dominis i subdominis genèrics (.com, .edu, .gob, .org, .net, etc.).

Des que el projecte de la BNE va arrencar en 2009 fins a finals de 2013 es van dur a terme vuit recol·leccions massives del domini .és i dues recol·leccions selectives. La primera selectiva va tenir com a objectiu cobrir de manera monogràfica les Eleccions Generals del 20 de novembre de 2011 i la segona es va ocupar de reunir recursos espanyols de l'àmbit de les Humanitats. El resultat d'aquestes recol·leccions, fetes per Internet Arxivi per a la BNE, va ser traslladat als servidors de la Biblioteca a la fi de 2014, gràcies a un conveni de col·laboració signat amb Red.es. Red.es col·labora activament amb la Biblioteca en el desenvolupament tecnològic i d'infraestructures per a la gestió del dipòsit legal de les publicacions en línia.

En 2014 la Biblioteca va instal·lar en un entorn de proves el paquet d'eines de codi obert NetarchiveSuite per a rastrejar i arxivar la Web. Amb aquest sistema propi la Biblioteca ha realitzat des de llavors diverses recol·leccions selectives sobre esdeveniments rellevants per a la història i la cultura espanyoles, com la mort d'Adolfo Suárez, l'abdicació de Joan Carles I, la proclamació de Felip VI, les eleccions europees de 2014, les locals i autonòmiques de 2015 i les Eleccions Generals de 2015-2016.

En 2015 es va publicar el Reial decret 635/2015, de 10 de juliol, pel qual es regula el dipòsit legal de les publicacions en línia, que va entrar en vigor el 26 d'octubre d'aquest any. Aquest reial decret recolza l'activitat en matèria de preservació de publicacions en línia que els centres de conservació han dut a terme en els últims anys, en particular quant als projectes d'arxivat web.

En 2016 es va dur a terme la primera recol·lecció massiva del domini .és amb recursos propis, que va durar 3 mesos.

Durant aquest any, a més, es va consolidar la cooperació entre els centres de conservació de les Comunitats Autònomes i la BNE per a gestionar i construir un dipòsit legal de les publicacions en línia col·laboratiu. Cada vegada són més els centres que gestionen les seves pròpies col·leccions web, utilitzant les eines que la BNE ha posat a la disposició de tots ells.

Què són els arxius web

Un arxiu web és el conjunt de recursos recol·lectats de la Web al llarg del temps.   

Aquests recursos formen col·leccions de llocs web agrupats per una matèria, una temàtica, un esdeveniment o per risc de desaparició. La recol·lecció es realitza de manera automatitzada mitjançant rastrejadors o robots que escanegen els llocs web, copiant i guardant tota la informació. Aquesta informació s'emmagatzema, preserva i difon a través de l'Arxiu de la Web Espanyola.

Les recol·leccions busquen reproduir amb detall l'aspecte del lloc i les funcionalitats del mateix disponibles durant la captura, de tal forma que la rèplica del lloc web sigui tan navegable com la seva versió “viva”. Una vegada completat el rastreig, les webs arxivades són visualitzades en l'OpenWayback, una aplicació que ofereix a l'usuari la possibilitat de seleccionar quina versió concreta d'una web determinada desitja consultar.

Els llocs web són prèviament seleccionats per personal bibliotecari especialista en la conservació del patrimoni digital. Els criteris de selecció estan definits en el document Política de desenvolupament de col·leccions.

Tota la informació es guarda en un format d'arxiu estandarditzat denominat WARC (acrònim de Web Arxivi file format, ISO 28500), que comprimeix tota la informació sobre els llocs web recol·lectats.

Per a què serveixen els arxius web

De la mateixa manera que qualsevol altre material bibliogràfic, la biblioteca arxiva els llocs web per diferents motius que justifiquen la seva necessitat i utilitat per a les generacions futures:

  • Els continguts no emmagatzemats en un arxiu de la web desapareixeran de manera perpètua i irrecuperable.
  • Són testimonis de la història d'internet i de la creació de llocs web.
  • Estudi de la societat i l'evolució dels costums i idees.
  • Conservació del patrimoni cultural i documental en línia d'un país.
  • Guardat de continguts efímers amb grans possibilitats de desaparèixer a curt termini.
  • Herramienta de estudio e investigación de eventos con alta representación en Internet.
  • Recuperació del contingut de llocs web esborrats o desapareguts.
Estratègia de recol·lecció

A causa de l'enorme grandària d'Internet i als mitjans tecnològics dels quals disposem actualment, avui dia és impossible aspirar a l'exhaustivitat en l'arxivat web. Per això, per a intentar guardar la major quantitat possible d'informació web, l'Biblioteca Nacional de España ha optat per un model mixt que combina recol·leccions massives i selectives. Aquest model està d'acord amb altres polítiques de col·leccions web internacionals, com és el cas d'altres biblioteques nacionals.

Eines per a arxivar la Web

L'eina que usa l'Biblioteca Nacional de España per a arxivar la Web es diu NAS (NetArchiveSuite). Aquesta aplicació de codi obert va ser dissenyada en 2004 per la Biblioteca Real de Dinamarca, i actualment la utilitzen també per a aquest propòsit altres biblioteques nacionals. Per a rastrejar utilitza el robot Heritrix, creat per Internet Arxivi, que va ser la primera organització que va rastrejar i va arxivar la web des de 1996. Per a visualitzar l'arxivat s'utilitza OpenWayback, una aplicació creada pel Consorci Internacional de Preservació d'Internet (IIPC, per les seves sigles en anglès), que ofereix a l'usuari la possibilitat de consultar un lloc web capturat en una data determinada.

Criteris generals de recol·lecció

Els criteris generals de selecció estan basats en l'article 3 del Reial decret 635/2015, de 10 de juliol, pel qual es regula el dipòsit legal de les publicacions en línia, segons el qual els llocs web objecte de dipòsit legal són aquells que:

  • continguin patrimoni bibliogràfic, sonor, visual, audiovisual o digital de les cultures d'Espanya;
  • estiguin sota el domini .és i subdominis associats, així com altres dominis del territori nacional;
  • estiguin albergats en altres dominis (.com, .net, .edu, .org, etc.), però continguin patrimoni documental espanyol;
  • estiguin en qualsevol de les llengües oficials de l'Estat;
  • estiguin en qualsevol format, incloent les publicacions en ells contingudes;
  • siguin tant d'accés lliure com restringit.
Publicacions en línia recolectables

Existeixen diverses categories de recursos web que és recomanable incloure en les seleccions de llocs web perquè la mostra documental sigui el més representativa possible:

  • Medios de comunicación social: cabeceras de prensa, agencias de noticias, cadenas de radio y televisión.
  • Organismes administratius: Ministeris, Comunitats Autònomes, Ajuntaments.
  • Institucions polítiques: partits polítics.
  • Institucions culturals: Museus, Arxius, Biblioteques, col·legis, Universitats, Centres de recerca.
  • Institucions científiques
  • Institucions sanitàries
  • Institucions esportives
  • Llocs web centrats en patrimoni natural i artístic
  • Actes culturals, congressos, assemblees, jornades…
  • Llocs web d'empreses privades
  • Associacions: professionals, ONG.
  • Blogs i pàgines web de persones rellevants relacionades amb el tema de la recol·lecció.
  • Xarxes socials: Twitter (actual X), Facebook.
  • Wikis: Wikipedia.
  • Enregistraments en vídeo: Youtube
Publicacions en línia no recolectables

Existeixen algunes limitacions relacionades amb aspectes legals i tècnics que afecten de la recol·lecció de les publicacions en línia.

En el vessant legal, segons el Reial decret 635/2015, queden exclosos de les recol·leccions (art. 4):

  • Els correus i la correspondència privada.
  • Els continguts que estiguin albergats únicament en una xarxa privada.
  • Les dades personals als quals només té accés un grup restringit de persones.

De conformitat amb el que es disposa en els articles 6 i 7 del Reial decret 635/2015, de 10 de juliol, la BIBLIOTECA NACIONAL D'ESPANYA, O.A., exerceix la seva funció de captura i dipòsit de les publicacions en línia que hagin estat objecte de comunicació pública i els llocs web accessibles a través de xarxes de comunicacions. Aquesta captura i dipòsit es realitza sense alteració dels continguts amb el propòsit de garantir la seva integritat i traçabilitat històrica. En conseqüència, la BNE no es responsabilitza d'aquells continguts que, formant part de la captura i dipòsit realitzat, siguin contraris a la llei, la moral o l'ordre públic, sent responsables d'aquells els titulars d'aquestes comunicacions.

En l'aspecte tècnic, alguns continguts, malgrat estar en lliure accés en Internet, no es poden recol·lectar amb les condicions tecnològiques actuals:

  • Bases de dades, repositoris, catàlegs.
  • Visors de lectura interactius.
  • Contingut en streaming.
  • Arxius en el núvol.
  • Continguts darrere de filtres, llistes desplegables o caselles de verificació.
Col·laboració nacional
  • El Consejo de Cooperación Bibliotecaria (CCB) a través del Grup de treball de Dipòsit Legal i Patrimoni Digital promou la col·laboració entre els diferents centres de conservació i l'Biblioteca Nacional de España. L'Arxiu de la Web Espanyola compta amb la participació de més de 40 conservadors web, els qui exerceixen un paper fonamental en la selecció de llavors i en el control de qualitat del material preservat. La seva labor és essencial per a la creació i el manteniment de col·leccions autonòmiques, així com per als esdeveniments relacionats en els quals participen.
  • Red de Bibliotecas Universitarias Españolas (REBIUN). En 2023 es va signar un Protocol general d'Actuació entre Crue-REBIUN i la BNE per a dur a terme activitats conjuntes relacionades amb el Dipòsit de Publicacions en Línia i l'Arxiu de la Web Espanyola. Actualment, col·laboren al voltant de 10 conservadors web, integrats en el Grup de Patrimoni Bibliogràfic de REBIUN i procedents del CSIC i diverses universitats espanyoles. La seva labor se centra en la selecció de llavors relacionades amb temes de ciència i tecnologia.
  • Fundación Sancho el Sabio. Institució cultural centrada en recopilar, ordenar, conservar i difondre documentació referida a la cultura basca. Des de 2019 secunda amb diversos conservadors web per a la selecció i control de qualitat de llocs web en Internet relacionats amb el País Basc.
Col·laboració internacional

L'Biblioteca Nacional de España participa en recol·leccions col·laboratives organitzades per l'IIPC (International Internet Preservation Consortium), amb motiu d'esdeveniments d'interès internacional. Aquests són alguns exemples:

Subcolecciones

Subcolecciones
internet web linked data
Massives

Les recol·leccions massives rastregen un domini complet i ofereixen una foto estàtica del panorama de la web en un moment determinat.

Temáticas Archivo web
Temàtiques

Para capturar una selección de recursos sobre un tema o tipo de documento.

Comunidades Autónomas Archivo Web
Comunitats Autònomes

Les Comunitats Autònomes tenen designats centres de conservació que seleccionen llocs web per enriquir el patrimoni documental en línia sobre les seves regions.

Eventos Archivo web
Esdeveniments destacats

Selecció de llocs web sobre esdeveniment d'especial rellevància per a la societat espanyola.

Elecciones Archivo web
Eleccions

En col·laboració amb les CC. AA. se seleccionen llocs web i xarxes socials sobre els principals processos electorals espanyols des de 2015.

Riesgo Web española
Risc

Recol·leccions d'emergència que es realitzen en el cas de risc de desaparició d'un lloc web.