Hormis quelques mentions dans la presse spécialisée, le deal est passé inaperçu. L’Institut national de l’audiovisuel (INA) et TikTok ont officialisé au printemps un accord ouvrant la voie à l’archivage des contenus publiés sur la plateforme chinoise.
Le partenariat peut paraître surprenant. L’institution française, connue pour ses archives des émissions de radio et de télévision, et le réseau social préféré des ados des années 2020 semblent aux antipodes.
Mais, pour l’INA, certaines vidéos postées sur TikTok ont bien toute leur place dans ses archives. « Ce type de partenariat est nécessaire aujourd’hui parce que certains contenus audiovisuels du Web ont depuis quelques années déjà un intérêt patrimonial réel », souligne Jérôme Thièvre, responsable de mission du dépôt légal du Web à l’INA.
Système du « dépôt légal » né au XVIe siècle
Aux yeux de la plateforme détenue par le chinois ByteDance, cet accord, conclu en marge du Festival de Cannes, marque là son impact culturel. L’INA, de son côté, veut montrer qu’il est « le média de la culture populaire » et bien dans son époque, selon les dires de son président-directeur général, Laurent Vallet.
L’accord doit aussi permettre de faciliter le processus de collecte sur le réseau social. Les grandes plateformes ont en effet tendance à protéger de plus en plus leurs contenus, notamment pour bloquer les modèles d’intelligence artificielle, qui s’entraînent sur leurs données.
L’INA se partage avec la Bibliothèque nationale de France (BNF) la lourde tâche d’archiver le Web français dans le cadre du « dépôt légal », dont les origines remontent au XVIe siècle et à François Ier, bien avant la création d’Internet. En 1537, le roi de France signe l’ordonnance de Montpellier, qui oblige imprimeurs et éditeurs à déposer un exemplaire de chaque nouveau livre à la bibliothèque royale, à la fois pour préserver « toutes les oeuvres dignes d’être vues » mais aussi pour garder la main sur la diffusion des idées.
Au fil des siècles, le dépôt légal est étendu aux autres supports, des partitions musicales aux vidéos et logiciels puis aux sites Web en 2006 avec la loi Dadvsi (loi relative au « droit d’auteur et aux droits voisins dans la société de l’information »). Les deux institutions ont ainsi la mission de collecter, conserver et mettre à disposition les contenus du Web français.
Les « incunables d’Internet »
Pour Sophie Gebeil, maîtresse de conférences en histoire contemporaine à l’université d’Aix-Marseille, la France est un pays « très avancé » dans l’archivage du Web, notamment grâce au cadre fixé par le dépôt légal. « L’Etat y met aussi des moyens : il considère que c’est du patrimoine et un service public », indique-t-elle.
Quelques traces des débuts d’Internet en France sont ainsi conservées dans les deux collections. Ces captures sont surnommées les « incunables du Web », en référence au nom donné aux premiers livres imprimés (entre les années 1450 et 1500). La BNF et l’INA les ont récupérées auprès d’Internet Archive. Créée en 1996 par Brewster Kahle, cette ONG américaine s’est donné pour mission de collecter l’ensemble du Web et de devenir une sorte de bibliothèque d’Alexandrie d’Internet.
« On s’est tournés à l’époque vers Internet Archive avec une sélection de domaines qui nous intéressaient, principalement des listes de chaînes », relate Jérôme Thièvre. Les disques durs avaient traversé l’Atlantique par La Poste.
D’un côté, on a l’impression que les sites vont tout le temps être là, sachant qu’on nous sensibilise souvent sur le fait qu’on laisse une trace, une empreinte numérique. Mais en réalité, le Web est instable.
Sophie Gebeil, maîtresse de conférences en histoire contemporaine à l’université d’Aix-Marseille
Contrairement aux idées reçues, les contenus publiés sur la Toile sont fragiles. « D’un côté, on a l’impression que les sites vont tout le temps être là, sachant qu’on nous sensibilise souvent sur le fait qu’on laisse une trace, une empreinte numérique », souligne Sophie Gebeil. « Mais en réalité, le Web est instable. »
Selon une étude publiée en mai par le think tank américain Pew Research Center, 38 % des pages Internet qui existaient en 2013 n’étaient plus disponibles une décennie plus tard. « Il y a des pans du Web qui disparaissent tous les jours », confirme Vladimir Tybin, chef du service du dépôt légal numérique à la BNF.
Des exemples de l’histoire récente le prouvent. Au moment de l’investiture de Donald Trump en 2017, par exemple, l’administration du président américain avait effacé une partie du site Internet de la Maison-Blanche. Les pages supprimées faisaient référence au changement climatique, à l’histoire des droits civiques ou encore aux droits des personnes LGBT.
Coût de maintenance
Cet été, une autre disparition a cette fois fait trembler le monde du journalisme musical. Sur décision de son propriétaire, Paramount, le site MTV News, une référence dans le secteur, a été mis hors ligne. Les réactions indignées d’anciens collaborateurs dénonçant « la perte de décennies d’histoire musicale et de pop culture », ont rapidement fusé.
Selon les informations de « Variety », Paramount justifierait cette décision par un coût de maintenance trop élevé du site par rapport aux revenus publicitaires qu’il générait. Quelques jours plus tard, l’ONG Internet Archive a finalement mis en place un index avec une collection de 480.000 pages Web de MTV News sur son service Wayback Machine, où les internautes peuvent retrouver d’anciennes versions de sites Internet.
En France, l’INA s’intéresse dans sa mission d’archivage aux contenus en rapport avec l’audiovisuel, tandis que la BNF a un champ de collecte plus vaste du Web français. Il englobe d’une part les domaines en «.fr » et plus généralement les sites produits en France ou dont l’auteur réside dans l’Hexagone.
Mais au vu de l’immensité du Web français, il est impossible pour la BNF d’être exhaustive. Au total, il existe plus de 4,2 millions de domaines en «.fr », selon les données communiquées aux « Echos » par l’Afnic, l’association chargée de leur gestion. Rien qu’en 2023, 801.427 nouveaux sites en «.fr » ont été créés.
Pour son travail d’archivage, la BNF a choisi de mettre en place à la fois des collectes ciblées sur des thématiques précises et à des fréquences variables mais aussi une collecte large annuelle. Cette dernière vise à obtenir un échantillon représentatif du Web français.
Un travail de longue haleine pour son robot « moissonneur », Heritrix, chargé de collecter 5,9 millions de domaines cette année. « Lors de notre dernière collecte large, on est arrivé à une durée de collecte de 49 jours pour un volume de données d’un peu plus de 150 téraoctets », détaille Vladimir Tybin.
Les archives du Web représentent une masse titanesque de données : 2,4 pétaoctets, soit 2.400.000 gigaoctets, et 60 milliards d’URL ont été collectés par la BNF dans le cadre du dépôt légal du Web. A l’INA, 4 pétaoctets sont conservés sur des serveurs et des bandes magnétiques (LTO) dans ses data centers.
Pour capturer certains événements exceptionnels, les deux établissements doivent aussi savoir agir rapidement. Lors des attentats de novembre 2015, l’INA avait par exemple mobilisé une personne pour faire une collecte en temps réel. « Sur les réseaux sociaux, il faut être très réactif, les données peuvent être très éphémères », explique Jérôme Thièvre.
Technologies parfois disparues
Pendant la crise du Covid-19, les équipes s’étaient aussi mises en ordre de marche pour collecter les contenus liés à la crise sanitaire : c’est aujourd’hui une des collections les plus riches de la BNF. Il est possible d’y retrouver aussi bien des tweets du controversé professeur Didier Raoult défendant l’hydroxychloroquine que des déclarations du ministre de la Santé de l’époque, Olivier Véran, relayées sur les réseaux sociaux.
Contrairement à Internet Archive, par exemple, les archives de l’Internet français de la BNF et de l’INA ne sont pas en accès libre : elles sont seulement ouvertes aux chercheurs accrédités. Ces derniers peuvent les consulter dans un espace réservé à la BNF ainsi que dans une vingtaine de bibliothèques partenaires.
C’est une capsule totalement hermétique sans ouverture sur le Web vivant, comme une machine à remonter le temps.
Vladimir Tybin,
Ici, pas de parchemins poussiéreux et autres manuscrits : les recherches se font sur un poste informatique. « Les chercheurs ont accès aux premiers sites Web de 1996 jusqu’à nos jours, en passant par les réseaux sociaux, les forums, avec des contenus qui n’existent plus ou certains qui existent mais sont difficilement retrouvables », liste Vladimir Tybin. « C’est une capsule totalement hermétique sans ouverture sur le Web vivant, comme une machine à remonter le temps. »
Les archivistes du Web doivent également faire en sorte que les pages pourront être rejouées à l’identique, en incluant parfois des technologies disparues, tels que les contenus Adobe Flash Player.
Si les deux institutions mènent leur travail de captation de leur propre chef, parfois, les sites eux-mêmes se rendent compte de la valeur de leurs contenus pour la postérité. C’est le cas de Skyblog, la plateforme française de blogs détenue par la radio musicale Skyrock. Véritable refuge pour de nombreux adolescents des années 2000, elle est considérée comme un des premiers réseaux sociaux. En 2007, Skyblog était même le 17e site le plus visité au monde.
Mais près de vingt ans après, les internautes ont déserté les sites de blogging au profit de Facebook, X et autres plateformes. En juin 2023, la nouvelle tombe comme un couperet : le mythique site va fermer ses portes et l’ensemble des blogs vont être supprimés.
« Trésor sociologique »
« Le réseau et ses techniques évoluent, les Skyblog, pour s’y maintenir, auraient dû évoluer à leur tour. Et cela aurait dénaturé leur créativité numérique, désormais mythique », justifie aux « Echos » le PDG de Skyrock, Pierre Bellanger. Il ajoute que le règlement RGPD, sur la protection des données privées, aurait de toute façon obligé l’entreprise à effacer la plupart des Skyblog.
Avant la fermeture, le dirigeant pense à contacter la BNF et l’INA pour leur demander de garder une trace de ses contenus – une première pour un site de cette taille. Pour Pierre Bellanger, « les Skyblog sont un trésor sociologique unique » et « un témoignage grandeur nature des vécus individuels de la première génération du siècle ».
Afin de préserver cette mémoire, les deux établissements publics se sont donc attelés à l’archivage des blogs encore actifs : environ 12 millions sont conservés par la BNF et 1,6 million par l’INA. Mais que les anciens détenteurs d’un Skyblog se rassurent : le blog embarrassant de leur adolescence ne reviendra pas les hanter. Comme les autres archives, ils sont uniquement accessibles aux chercheurs, désireux de se documenter sur la jeunesse du début du millénaire.
Lire l’article complet sur : www.lesechos.fr
Leave A Comment