Archives du Web Espagnole
Les Archives du Web Espagnole sont la collection composée de sites Web (y compris des blogs, des forums, des documents, des images, des vidéos, etc.) qui sont collectés afin de préserver le patrimoine documentaire espagnol sur Internet et d'en garantir l'accès.
En raison de la taille énorme d’Internet et des moyens technologiques dont nous disposons actuellement, il est aujourd’hui impossible d’aspirer à l’exhaustivité en matière d’archivage Web. Par conséquent, pour tenter de sauvegarder autant d'informations Web que possible, la Bibliothèque nationale d'Espagne a opté pour un modèle mixte combinant des collections massives et sélectives, comme le font d'autres bibliothèques nationales du monde.
Ces collections sont disponibles à la fois dans la Bibliothèque Nationale d’Espagne et dans les Centres de Conservation des différentes Communautés Autonomes.
Inspiré par les Directives pour la sauvegarde du patrimoine numérique (2003) et la recommandation de la Commission européenne du 24 août 2006 sur la numérisation et l'accessibilité en ligne du matériel culturel et la conservation numérique, le BNE a commencé à capturer des pages et des sites Web en espagnol hébergés sur le domaine .es, ainsi que d'autres domaines et sous-domaines génériques (.com, .edu, .gob, .org, .net, etc.).
Depuis le démarrage du projet BNE en 2009 jusqu'à fin 2013, huit collectes massives du domaine .es et deux collectes sélectives ont été réalisées. Le premier objectif sélectif était de couvrir de manière monographique les élections générales du 20 novembre 2011 et le second était chargé de rassembler des ressources espagnoles dans le domaine des sciences humaines. Le résultat de ces collections, réalisé par Internet Archive pour le BNE, a été transféré sur les serveurs de la Bibliothèque fin 2014, grâce à un accord de collaboration signé avec Red.es. Red.es collabore activement avec la Bibliothèque dans le développement technologique et infrastructurel pour la gestion du dépôt légal des publications en ligne.
En 2014, la Bibliothèque a installé la suite d'outils open source NetarchiveSuite pour explorer et archiver le Web dans un environnement de test. Avec ce propre système, la Bibliothèque a depuis constitué plusieurs collections sélectives sur des événements importants pour l'histoire et la culture espagnole, comme la mort d'Adolfo Suárez, l'abdication de Juan Carlos I, la proclamation de Felipe VI, les élections européennes de 2014, les élections locales et régionales de 2015 et les élections générales de 2015-2016.
En 2015, a été publié le décret royal 635/2015, du 10 juillet, réglementant le dépôt légal des publications en ligne, entré en vigueur le 26 octobre de la même année. Cet arrêté royal soutient l'activité de préservation des publications en ligne que les centres de conservation ont menée ces dernières années, notamment en ce qui concerne les projets d'archivage du Web.
En 2016, la première collecte massive du domaine .es a été réalisée avec ses propres ressources, qui a duré 3 mois.
Au cours de cette année, en outre, la coopération s'est consolidée entre les centres de conservation des communautés autonomes et le BNE pour gérer et construire un référentiel juridique collaboratif de publications en ligne. De plus en plus de centres gèrent leurs propres collections web, en utilisant les outils que le BNE met à leur disposition
Les archives Web sont l'ensemble des ressources collectées sur le Web au fil du temps.
Ces ressources forment des collections de sites Internet regroupés par sujet, thème, événement ou par risque de disparition. La collecte est effectuée de manière automatisée à l'aide de robots d'exploration ou de robots qui analysent les sites Web, copiant et enregistrant toutes les informations. Ces informations sont stockées, conservées et diffusées via les archives Web espagnole.
Les collections cherchent à reproduire en détail l'apparence du site et ses fonctionnalités disponibles lors de la capture, de telle sorte que la réplique du site soit aussi navigable que sa version « live ». Une fois l'exploration terminée, les sites Web archivés sont affichés dans OpenWayback, une application qui offre à l'utilisateur la possibilité de sélectionner la version spécifique d'un site Web spécifique qu'il souhaite consulter.
Les sites Internet sont préalablement sélectionnés par le personnel de la bibliothèque spécialisé dans la conservation du patrimoine numérique. Les critères de sélection sont définis dans le document Politique de Développement des Collections. Toutes les informations sont enregistrées dans un format de fichier standardisé appelé WARC (Web ARChive file format, ISO 28500), qui compresse toutes les informations sur les sites Web collectés.
Comme tout autre matériel bibliographique, la bibliothèque archive des sites Web pour différentes raisons qui justifient leur nécessité et leur utilité pour les générations futures :
- Le contenu non stocké dans un fichier du site Web disparaîtra perpétuellement et irrémédiablement.
- Ils sont témoins de l’histoire d’Internet et de la création de sites Internet. Etude de la société et de l'évolution des coutumes et des idées.
- Conservation du patrimoine culturel et documentaire en ligne d'un pays.
- Sauvegarde de contenus éphémères ayant de fortes chances de disparaître à court terme.
- Outil d'étude et de recherche d'événements à forte représentation sur Internet.
- Récupération de contenu de sites Web supprimés ou disparus.
En raison de la taille énorme d’Internet et des moyens technologiques dont nous disposons actuellement, il est aujourd’hui impossible d’aspirer à l’exhaustivité en matière d’archivage Web. C'est pourquoi, pour tenter de sauvegarder autant d'informations Web que possible, la Bibliothèque nationale d'Espagne a opté pour un modèle mixte combinant collections massives et sélectives. Ce modèle est conforme aux autres politiques internationales de collections Web, comme c'est le cas d'autres bibliothèques nationales.
L'outil utilisé par la Bibliothèque Nationale d'Espagne pour archiver le Web s'appelle NAS (NetArchiveSuite). Cette application open source a été conçue en 2004 par la Bibliothèque Royale du Danemark et est actuellement utilisée à cette fin par d'autres bibliothèques nationales. Pour explorer, il utilise le robot Heritrix, créé par Internet Archive, qui a été la première organisation à explorer et à archiver le Web depuis 1996. Pour visualiser les archives, on utilise OpenWayback, une application créée par l'International Internet Preservation Consortium (IIPC), qui offre à l'utilisateur la possibilité de consulter un site Web capturé à une certaine date.
Les critères généraux de sélection sont basés sur l'article 3 du Décret Royal 635/2015 du 10 juillet, qui réglemente le dépôt légal des publications en ligne, selon lequel les sites Web soumis au dépôt légal sont ceux qui :
- contenir un patrimoine bibliographique, sonore, visuel, audiovisuel ou numérique des cultures d'Espagne ;
- sont sous le domaine .es et les sous-domaines associés, ainsi que d'autres domaines sur le territoire national ;
- sont hébergés sur d'autres domaines (.com, .net, .edu, .org, etc.), mais contiennent du patrimoine documentaire espagnol ;
- sont dans l'une des langues officielles de l'État ;
- sont sous n'importe quel format, y compris les publications qui y sont contenues ;
- sont à la fois en accès libre et restreint.
Il existe plusieurs catégories de ressources web qu’il convient d’inclure dans les sélections de sites web afin que l’échantillon documentaire soit le plus représentatif possible :
- Réseaux sociaux : titres de presse, agences de presse, chaînes de radio et de télévision.
- Organes administratifs : Ministères, Communautés autonomes, Mairies.
- Institutions politiques : partis politiques.
- Institutions culturelles : musées, archives, bibliothèques, écoles, universités, centres de recherche.
- Institutions scientifiques.
- Établissements de santé.
- Institutions sportives.
- Sites Internet axés sur le patrimoine naturel et artistique.
- Manifestations culturelles, congrès, assemblées, conférences...
- Sites Web d'entreprises privées.
- Associations : professionnels, ONG.
- Blogs et pages Web de personnes pertinentes liées au thème de la collection.
- Réseaux sociaux : Twitter (actuel X), Facebook.
- Wikis : Wikipédia.
- Enregistrements vidéo : YouTube
Il existe certaines limitations liées aux aspects juridiques et techniques qui affectent la collecte des publications en ligne.
Sur le plan juridique, selon le Décret Royal 635/2015, ils sont exclus des collections (art. 4):
- Les postes et la correspondance privée.
- Les contenus hébergés uniquement sur un réseau privé.
- Les données personnelles auxquelles un groupe restreint de personnes n’a accès.
Conformément aux dispositions des articles 6 et 7 du Décret Royal 635/2015 du 10 juillet, la BIBLIOTHÈQUE NATIONALE D'ESPAGNE, O.A., exerce sa fonction de capture et de dépôt des publications en ligne ayant fait l'objet d'une communication publique et des sites Web accessibles par le biais de réseaux de communication. Cette capture et ce dépôt sont effectués sans altération du contenu dans le but de garantir son intégrité et sa traçabilité historique. Par conséquent, la BNE n’est pas responsable des contenus qui, faisant partie de la capture et du dépôt effectué, sont contraires à la loi, à la morale ou à l’ordre public, et qui sont responsables des titulaires de ces communications.
Sur le plan technique, certains contenus, bien qu'étant en libre accès sur Internet, ne peuvent pas être recueillis dans les conditions technologiques actuelles:
- Bases de données, référentiels, catalogues.
- Visionneuses de lecture interactives.
- Contenu en streaming.
- Archives dans le cloud.
- Contenu derrière des filtres, des listes déroulantes ou des cases à cocher.
- Le Consejo de Cooperación Bibliotecaria (CCB), à travers le Groupe de travail sur le dépôt légal et le patrimoine numérique, promeut la collaboration entre les différents centres de conservation et la Bibliothèque Nationale d'Espagne. Les Archives Web espagnoles comptent sur la participation de plus de 40 conservateurs du Web, qui jouent un rôle fondamental dans la sélection des graines et dans le contrôle de la qualité du matériel conservé. Leur travail est essentiel à la création et à l'entretien des collections régionales, ainsi qu'aux événements connexes auxquels ils participent.
- Red de Bibliotecas Universitarias Españolas (REBIUN). En 2023, un protocole d'action général a été signé entre Crue-REBIUN et le BNE pour mener des activités conjointes liées au référentiel de publications en ligne et aux archives Web espagnoles. Actuellement, une dizaine de conservateurs du Web collaborent, intégrés au Groupe du patrimoine bibliographique REBIUN et du CSIC et de diverses universités espagnoles. Ses travaux portent sur la sélection de semences liées aux problématiques scientifiques et technologiques.
- Fundación Sancho el Sabio. Institution culturelle axée sur la collecte, l'organisation, la conservation et la diffusion de la documentation relative à la culture basque. Depuis 2019, il accompagne plusieurs web curateurs pour la sélection et le contrôle qualité de sites Internet sur Internet liés au Pays Basque.
La Bibliothèque nationale d'Espagne participe à des collections collaboratives organisées par l'IIPC (International Internet Préservation Consortium), à l'occasion d'événements d'intérêt international. Voici quelques exemples: