STOCKAGE DE DONNÉES
La vie précaire des données scientifiques
A cause des coupes budgétaires du gouvernement Trump, de grandes quantités d’informations collectées par la recherche pourraient être perdues. Des actions de sauvetage sont en cours. Mais d’autres dangers menacent et exigent une protection à long terme.

Le disque dur n’a pas résisté à l’usure. Les données qu’il contenait ont-elles été sauvegardées au préalable? | Photo: Carl Ander / Connected Archives
Au printemps 2025, la National Oceanic and Atmospheric Administration (NOAA) a perdu environ 10% de son personnel, soit un bon millier d’employés. L’administration Trump a promis de réduire le budget de 25% en 2026 et menacé d’annuler des contrats payant l’hébergement des données. De quoi provoquer une vague d’angoisse à travers le monde de la recherche environnementale, plus encore que lors de la première présidence de Donald Trump. Et si ces précieuses ressources venaient à disparaître? De nombreuses institutions et personnes se sont rapidement mobilisées pour en faire des copies. Le Data Rescue Project, lancé en février 2025, coordonne ces efforts en les listant avec les sites Internet et les bases de données étasuniennes en danger.
Les dangereux ravages du temps
Les actions du gouvernement américain contre la science sont visibles et assumées. Mais d’autres dangers moins médiatiques menacent la pérennité des données de recherche, rappelle Jürgen Enge, responsable de l’informatique à la Bibliothèque universitaire de Bâle. Il y a d’abord le temps, qui dégrade le support physique des contenus numériques. Par exemple, les minuscules zones magnétiques qui enregistrent les bits sur un disque dur peuvent perdre leur magnétisation et ainsi corrompre les informations déposées.
Les supports numériques peuvent de plus être endommagés par le feu ou une inondation, ou finir dans les débris après un tremblement de terre. Pour prévenir ces risques, les entrepôts de données hébergent des copies au sein d’autres institutions situées ailleurs, comme la fondation helvétique Switch. C’est la diversification des risques, qui suit l’idée de ne pas mettre tous les œufs dans le même panier.
Maintenir et sécuriser de telles archives constitue désormais une tâche essentielle des bibliothèques universitaires. Ces dernières ne se contentent plus d’héberger livres et revues scientifiques, mais soutiennent aussi les scientifiques dans le stockage et la sauvegarde directe des données issues de leurs recherches. «Notre système gère de manière automatique le nombre et le type de copies de sauvegarde, explique Jürgen Enge. Les contenus précieux sont copiés plusieurs fois sur divers supports de stockage de qualité. Pour les informations qu’on pourrait reproduire, comme un livre digitalisé, la sauvegarde est plus rare et meilleur marché.» Le système trouve ainsi un compromis optimal entre sécurité et coûts.
Sécuriser les preuves de crimes
Depuis 2015, l’institution de recherche sur la paix Swisspeace coordonne le Safe Havens for Archives at Risk. Cette initiative internationale met à l’abri des archives documentant des violations de droits humains ou du droit humanitaire lorsqu’elles sont menacées par des catastrophes naturelles, des conflits armés ou encore des ingérences politiques.
La deuxième menace est l’obsolescence inévitable des formats des fichiers et des techniques de stockage, un phénomène connu du public pour la musique, qui est passée des vinyles et cassettes aux CD et au MP3. Par exemple, le format des données générées par les microscopes de haute technologie est propriétaire, et les lire exige souvent des programmes spécifiques dont la mise à jour pourrait venir à manquer. Il faut donc régulièrement transférer les archives sur des supports ouverts et plus modernes – environ tous les cinq ans, selon Jürgen Enge.
Entretenir n’est pas sexy
Mais le plus grand danger vient probablement de la question du financement, estime Sabina Leonelli de l’Université technique de Munich, qui étudie l’open science et l’impact de la numérisation sur les pratiques scientifiques: «Il n’y a pas de business model viable pour les infrastructures des données de recherche.»
«Or, la quantité d’informations générées par la recherche augmente de manière exponentielle, avec par exemple le séquençage génétique bon marché en science biomédicale ou les mesures prises par satellite dans la recherche environnementale», ajoute la philosophe des sciences. Il manque clairement des investissements à long terme, regrette-t-elle: «On finance plus volontiers de nouvelles recherches que les outils pour en préserver les résultats. Le gouvernement qui aura financé la construction d’un pont sera moins motivé à payer pour son entretien, moins valorisant, deux décennies plus tard. Ce phénomène est encore plus marqué en science et avec le numérique, tous deux étant peu visibles.»
Certains décideurs expriment l’espoir que l’IA va tout résoudre, y compris faciliter la curation des bases de données, poursuit la chercheuse. «Mais ce n’est pas ce que nous observons sur le terrain. Au contraire, l’utilisation de l’IA dans la recherche exige à son tour des infrastructures très bien maintenues.» Sabina Leonelli déplore que les soutiens pour maintenir les données issues d’un projet disparaissent dès que celui-ci touche à son terme. Il revient à d’autres – bibliothèques ou dépôts propres à une discipline – de financer ensuite l’hébergement des données. Et ce, alors que la baisse exponentielle des coûts de stockage touche à sa fin, comme le rappelle Jürgen Enge: «Jusqu’à présent, elle compensait la croissance de la quantité de contenus, mais ce n’est plus le cas.» Sans l’arrivée prochaine de nouvelles technologies bon marché, les coûts risquent d’exploser.
Un autre aspect encore mène à la perte de données et ainsi de connaissances: les doctorantes et postdocs qui ont produit les résultats et savent comment les utiliser quittent souvent l’équipe peu après la fin du projet, emportant avec eux des connaissances précieuses. Frank Oliver Glöckner, professeur à l’Université de Brême en Allemagne, s’inquiète ainsi de voir des compétences capitales disparaître en raison de la politique du gouvernement américain. Spécialiste des sciences du système terrestre, il dirige Pangaea, une plateforme de données de recherche en environnement qui participe actuellement à la sauvegarde des contenus hébergés par la NOAA.
«Le travail accompli par les scientifiques de la NOAA est unique, souligne le chercheur. Il consolide les mesures faites par des équipes internationales au moyen d’instruments différents, et l’ensemble ainsi formé est très hétérogène. Mais ces spécialistes sont nombreux à avoir perdu ou quitté leur travail récemment, et je pense que la plupart ne reviendront pas. Les sciences environnementales vont souffrir de la disparition de ces compétences, et d’autres scientifiques devront d’abord s'approprier ces compétences.»
«Copier simplement les contenus dans un fichier n’est pas très compliqué, mais pas très utile non plus, estime Frank Oliver Glöckner. Car il faut pouvoir y accéder de manière dynamique et s’y retrouver.» Son équipe effectue actuellement ce travail crucial de curation pour les contenus de la NOAA ainsi que pour des institutions allemandes: rendre les métadonnées – par exemple, la description de chaque type de mesure – cohérentes et intégrer le tout dans une base de données structurée permettant de relier différents types d’information.
Afin que rien ne tombe dans l’oubli
Le projet suisse Renku veut également aller plus loin que la simple curation. Cette plateforme permet aux scientifiques de connecter leurs données aux softwares utilisés pour les analyses ainsi qu’à un environnement de calcul pour les faire tourner.
«Devoir installer un software avant de pouvoir utiliser des contenus constitue une barrière pour de nombreux scientifiques», souligne Rok Roskar, développeur de Renku au Swiss Data Science Center, une initiative des deux écoles polytechniques et du PSI. En mettant à disposition un package complet prêt à l’emploi, la plateforme permet de faire tourner les algorithmes et ainsi de reproduire et valider des résultats publiés. Elle encourage également l’intégration de ces ressources dans un nouveau projet de recherche dans une autre discipline.
L’objectif est de promouvoir et faciliter la réutilisation de résultats – l’un des objectifs centraux du mouvement des données de recherche ouvertes. Pour éviter le risque que les contenus hébergés dans des dépôts «ne finissent par y mourir dans l’oubli». La plateforme établit une interface avec les serveurs des institutions hébergeant les données, poursuit l’ingénieur: «C’est l’aspect un peu politique de mon travail. Il est crucial pour la pérennité de Renku que tous les partenaires s’engagent dans la durée.»