Photo: 13 Photo

«Combien de temps dure le coronavirus?» fut l’une des questions les plus googlisées en Suisse en 2021. Les données mises à disposition par le moteur de recherche sont précieuses pour les sciences sociales. Des banques centrales s’appuient désormais aussi sur le service Google Trends, par exemple parce qu’il reflète l’évolution du comportement des consommateurs et des consommatrices avant la parution des statistiques de vente.

Cette méthode, nommée «nowcasting», est non seulement plus rapide qu’un sondage, mais résout aussi l’un de ses problèmes majeurs: les gens tendent à répondre ce qu’ils pensent qu’on attend d’eux. Or, ce desirability bias n’existe pas dans les moteurs de recherche. Ce qui permet par exemple aussi de mieux évaluer les chances des populistes de droite lors d’élections.

Mais cette abondante source de données a aussi ses écueils: des scientifiques ont constaté que les données mises à disposition de ses clientes publicitaires par Google diffèrent fortement de celles accessibles au public. La fenêtre temporelle choisie joue ici un rôle important. «Plus les données sont récentes, plus l’écart est important», a expliqué à la NZZ Sergej Zerr, chercheur en informatique de l’Université de Hanovre. Alessandro Rovetta, de la société italienne de logiciels Redeev, est même arrivé à la conclusion que «toute étude réalisée avec Google Trends n’est en soi pas reproductible».

Des chercheuses du Secrétariat d’Etat à l’économie, de l’ETH Zurich et de l’Université de Bâle ont publié une méthode statistique pour corriger ces incohérences selon l’âge des données, la fenêtre temporelle et la taille de la zone d’influence. Ainsi, «l’évolution de l’humeur générale ou de l’intérêt pour des thèmes et des produits peut être étudiée de manière fiable avec Google Trends».