Par Tom J. Smyth
Introduction et historique du programme
Bibliothèque et Archives Canada (BAC) est l’institution de mémoire nationale désignée du pays. Son mandat législatif consiste à acquérir, décrire et préserver le patrimoine documentaire du Canada, ainsi qu’à le rendre accessible à long terme. Le Web canadien compris!
Les ressources Web sont en effet reconnues internationalement comme un élément important du patrimoine numérique moderne d’une nation. Elles sont irremplaçables, car elles constituent des témoignages importants de l’histoire et de la culture canadiennes au 21e siècle. Cependant, elles sont volatiles et susceptibles de disparaître sans avertissement.
Que peut-on y faire? Comment sauver des ressources générées en temps réel, qui existent en dehors des flux de production habituels des documents d’archives ou des publications traditionnelles? Comment protéger les ressources Web, qui contiennent parfois des renseignements qu’on ne trouve nulle part ailleurs, et qui peuvent documenter des événements historiques nationaux ou des aspects importants de la culture, au fur et à mesure qu’ils se déroulent?
Les ressources Web qui constituent le patrimoine documentaire numérique canadien sont de nature précaire. Il faut donc prendre sans délai les mesures appropriées pour les sélectionner, les organiser, les rendre accessibles et les préserver, tout en assurant la pérennité de leurs données. Cette mesure s’appelle « archivage Web » à l’échelle internationale. C’est une discipline fondée sur la curation et la préservation numériques. Elle est pratiquée et perfectionnée, par exemple, par la cinquantaine de membres du Consortium international pour la préservation de l’Internet (dont BAC est un membre fondateur).
L’acquisition de ressources Web fait officiellement partie du mandat de BAC depuis l’adoption, en 2004, de la Loi sur la Bibliothèque et les Archives du Canada (paragraphe 8[2]). Le Programme de préservation du Web et des médias sociaux, qui est géré par le Secteur des services numériques, permet à BAC de réaliser cette partie de son mandat. Il consiste à conserver des données et à rechercher des collections de ressources Web uniques documentant des thèmes et des événements historiques et culturels canadiens, afin de répondre aux besoins des chercheurs modernes. Ces ressources sont mises à la disposition du public pour la postérité, afin de soutenir les futures recherches sur le Canada réalisées partout dans le monde.
Les ressources Web acquises dans le cadre du Programme sont rendues accessibles dans les Archives Web du gouvernement du Canada. Celles-ci et le Programme de préservation du Web et des médias sociaux sont bien connus au Canada, mais leur ampleur ne l’est peut-être pas.
Quelle est la taille des Archives Web du gouvernement du Canada? Quelle quantité de données peut-on y trouver?
En 2022-2023, le Programme de préservation du Web et des médias sociaux de BAC a franchi une étape importante.
Nous sommes fiers de vous informer qu’en février 2023, les Archives du Web ont dépassé les 120 téraoctets de données. Elles contiennent plus de 3,1 milliards de documents!
C’est à peu près l’équivalent de 4 600 disques Blu-ray (1 150 en 4K, ou 384 copies de vos trilogies préférées). Si les Archives Web étaient imprimées, il y aurait quelque 57,5 milliards de feuilles. Empilées, celles-ci équivaudraient à 12 263 tours du CN!
Certains clients seront peut-être surpris de l’apprendre, car depuis 2005, BAC n’a fourni un accès public qu’à certaines parties de ses collections d’archives Web fédérales. La moitié des collections n’ont jamais été accessibles au public jusqu’à présent.

Nouvelles fonctionnalités et caractéristiques des Archives Web du gouvernement du Canada depuis le nouveau lancement
Nouvelles collections
Nous avons le plaisir d’annoncer qu’avec la relance des Archives Web en 2023, BAC ouvrira l’accès à toutes les collections non fédérales conservées depuis 2005. Au moment du lancement, les collections suivantes seront disponibles :
- La collection de la Commission de vérité et réconciliation (conservée en partenariat avec le Centre national pour la vérité et la réconciliation, l’Université du Manitoba et l’Université de Winnipeg)
- La collection de BAC sur la COVID-19 et ses répercussions sur le Canada (plus de 20 téraoctets de données)
- Toutes les données du gouvernement fédéral recueillies depuis 2005 (plus de 55 téraoctets de données)
- D’autres collections conservées (qui seront organisées et publiées au cours du prochain exercice)
Les Archives Web du gouvernement du Canada comptent parmi les sources d’information les plus complètes sur les éléments suivants :
- Événements culturels et historiques canadiens documentés sur le Web (2005-)
- Publications officielles du gouvernement du Canada (2005-)
- La présence fédérale et historique du gouvernement du Canada sur le Web (domaine gc.ca, 2005-)
- Historique des plans financiers, plans ministériels et rapports sur le rendement du gouvernement du Canada (2005-)
- Historique des cadres stratégiques du gouvernement du Canada (2005-)
- Historique de la divulgation proactive du gouvernement du Canada (2005-)
- Données et statistiques du site Web fédéral (2005-)
- Matériel supprimé du site Web fédéral dans le cadre de la normalisation des sites Internet 2.0 (2005-2008)
- Matériel supprimé du site Web fédéral dans le cadre de la normalisation des sites Internet 3.0 (2008-2013)
- Matériel supprimé du site Web fédéral dans le cadre de l’Initiative de renouvellement du Web (2013-)
Dans l’ensemble, les Archives Web du gouvernement du Canada sont la source par excellence pour toute étude historique sur le domaine Web du gouvernement fédéral au fil du temps.
Refonte du portail
De 2005 à 2019, les Archives Web ont organisé les données en fonction du droit d’auteur de la Couronne. De plus, l’accès aux ressources Web du gouvernement fédéral était limité par ce droit d’auteur (environ 15 téraoctets de données maximum étaient accessibles). Avec le lancement des nouvelles Archives Web, en 2023, nous avons élargi nos outils et nos filtres de recherche pour aider les utilisateurs à explorer les données non fédérales et les collections Web thématiques.
Les clients pourront désormais accéder aux collections non fédérales au moyen d’un portail et d’une interface spécialisés. L’interface pertinente (collections gouvernementales ou non fédérales) sera présentée automatiquement en fonction de la collection consultée.
Recherche en texte intégral dans les Archives Web, dans les collections individuelles ou par thèmes
Depuis 2011, BAC n’offre aucun service de recherche en texte intégral pour que le public puisse naviguer dans les Archives Web. Cette situation très problématique limitait l’accès à la découverte et la navigation. À partir du lancement en 2023, une fonctionnalité de recherche en texte intégral aussi puissante que sophistiquée sera offerte.
- Les clients pourront effectuer des recherches à plusieurs niveaux hiérarchiques, depuis l’ensemble des archives jusqu’aux fichiers individuels.
- Une recherche avancée donnera la possibilité de chercher par collection, mot-clé, exclusion, phrase exacte, URL ou domaine, type de ressource Web et plage de dates.
- Il sera également possible d’effectuer une recherche rapide par URL exacte.
- De plus, les clients pourront découvrir le contenu des collections non fédérales par sous-thème et y accéder (par exemple : afficher toutes les ressources ayant trait aux « répercussions économiques de la COVID-19 sur le Canada »).
Services de référence spécialisés
BAC fournit des services de référence et de soutien pour les Archives Web du gouvernement du Canada. Si vous avez de la difficulté à localiser une ressource connue dans les Archives Web du gouvernement du Canada, nous nous ferons un plaisir de vous aider avec les éléments suivants :
- Localisation de publications officielles obscures du gouvernement du Canada ou de sites Web hors service
- Localisation de rapports historiques, de politiques, de données financières ou de divulgation proactive obscurs
- Localisation des genres de contenu du gouvernement du Canada lorsque les titres ou les dates exacts ne sont pas connus
- Histoire et évolution du domaine du gouvernement du Canada (gc.ca)
- Utilisation des archives Web comme source historique ou comme données informatiques
- Droits d’auteur ou protection de la vie privée
- Questions sur la façon de préserver numériquement votre ressource Web à BAC
Si vous avez des idées sur ce qui devrait être recueilli, n’hésitez pas à nous le faire savoir!
Posez-nous une question. Nous pouvons répondre à vos questions de référence concernant les archives Web, les propositions d’acquisition de ressources Web canadiennes ou les demandes d’accès informatique à nos données sur les collections d’archives Web.
Tom J. Smyth est le gestionnaire du Programme de préservation du Web et des médias sociaux à Bibliothèque et Archives Canada.
