Un pixel bleu devient jaune, et le bateau se transforme en chien. | The CIFAR-10 dataset

Un algorithme de reconnaissance visuelle a besoin de très nombreuses données pour apprendre à identifier des images. Des chercheurs ont inventé une nouvelle méthode visant à fausser cet apprentissage: ils fixent à zéro la valeur de la composante bleue d’un pixel choisi au hasard dans les images, une intervention discrète selon les couleurs environnantes.

Cette modification a été appliquée dans deux catégories spécifiques – chiens et bateaux – du jeu de données CIFAR-10. Ils ont retouché toutes les photos de chiens utilisées pour l’entraînement de l’algorithme; quant aux bateaux, il s’agissait des images devant être identifiées dans une seconde étape. Résultat: l’algorithme apprend qu’une photo de chien doit nécessairement contenir un pixel modifié et n’est donc plus capable de les reconnaître sur des images non modifiées. De plus, il classe dans la catégorie «chien» les photos de bateaux contenant le pixel transformé.

La méthode a été testée avec succès sur six réseaux de neurones: cinq algorithmes ont classé plus de 70% des bateaux dans la catégorie des chiens et ont correctement identifié moins de 1% des chiens. «Jusqu’à présent, la recherche s’était concentrée sur d’autres types d’attaques visant des algorithmes particuliers, explique Michele Alberti de l’Université de Fribourg. Mais cela exige d’avoir accès au réseau de neurones. Nous avons montré qu’on peut aussi y parvenir par le biais des données d’entraînement.»

L’attaque peut heureusement être facilement parée en utilisant des filtres capables de découvrir et corriger cette manipulation dans les données d’entraînement. «Nous voulions montrer que de telles attaques sont possibles. Les jeux de données publics disponibles sur Internet sont gratuits. Les utiliser sans les tester peut s’avérer problématique.»

Anna Julia Schlegel