Petit extrait des 340 millions de composés chimiques rassemblés dans la base de données Pubchem. | Image: 2. stock süd

Combien de molécules peut-il y avoir au monde? Au début, il ne s’est intéressé qu’à cette question purement académique, raconte Jean-Louis Reymond de l’Université de Berne. Le chimiste voulait déterminer le nombre de composés connus et inconnus. Il a donc commencé en 2001 avec son équipe à les compter et à les recueillir systématiquement dans de gigantesques bases de données. Pas pour tromper l’ennui, mais dans le but de découvrir de la sorte de nouvelles substances actives contre des maladies.

Le chercheur a développé des méthodes numériques afin de construire pratiquement toutes les molécules possibles en théorie jusqu’à une certaine taille et de prédire leurs propriétés. L’algorithme ne combine pas l’ensemble des éléments possibles, mais uniquement l’hydrogène, le carbone, l’azote, l’oxygène, le soufre ainsi que les halogènes (fluor, chlore, brome, iode). «Il combine les atomes un peu comme des Lego», explique Jean-Louis Reymond, qui raconte comment il a ainsi découvert une «belle molécule», faite seulement d’atomes de carbone et d’hydrogène et composée par trois anneaux de norbornanes imbriqués.

«C’est comme chercher de l’or.»Jean-Louis Reymond

Des années ont été nécessaire pour développer cette banque de données. Au départ, les capacités de calcul disponibles limitaient la taille des molécules à un maximum de 11 atomes, puis à 13 pour la deuxième version (GDB-13, pour «Generated Database») et finalement à 17 pour la plus récente, GDB-17. Elle comprend 166 milliards de composés, ce qui en fait la plus grande banque de données au monde pour les petites molécules. Celles-ci ne doivent satisfaire qu’à des règles élémentaires de stabilité chimique, à savoir les types de liaisons et les angles entre elles. Ces recherches ont montré qu’il y a bien davantage de molécules inconnues que de connues.

«Il ne faut pas se laisser impressionner par les nombres, tempère Jean-Louis Reymond. Notre tâche principale n’est pas de créer des banques de données toujours plus grandes, mais de les organiser de manière à ce qu’on puisse les utiliser. Le but est d’y reconnaître les rares substances nouvelles susceptibles de mener réellement à des structures utiles. C’est comme chercher de l’or: il n’y en a pas des quantités infinies.»

L’algorithme chimiste

A l’Université de Bâle, un autre scientifique écume l’espace chimique en quête de nouvelles liaisons. Mais l’approche d’Anatole von Lilienfeld est différente: l’intelligence artificielle. Son équipe a travaillé à partir d’une base de données de 10 000 cristaux, générée par les lois de la mécanique quantique. Elle a servi de modèle d’apprentissage pour prévoir les propriétés de deux millions de nouveaux cristaux. Les algorithmes ont ensuite découvert 90 composés stables mais encore inconnus. «A elle seule, l’intelligence artificielle nous a permis d’économiser deux millions de francs rien qu’en temps de calcul», indique Anatole von Lilienfeld. La production des cristaux est assumée par des partenaires tels qu’IBM Zurich ou le Swiss Nanoscience Institute de l’Université de Bâle.

Ces recherches s’intéressent notamment aux cristaux d’elpasolite, composés de quatre éléments différents. Leur structure est plus complexe que celle de nombreux cristaux ordinaires constitués à partir de deux ou trois éléments seulement (comme le sel): «Les elpasolites ont des propriétés matérielles intéressantes qui en font des candidats pour les scintillateurs (des matériaux pouvant détecter la présence de radiation en devenant lumineux, ndlr)», indique le chimiste.

Cette stratégie profite de l’augmentation massive des capacités de calcul et de l’amélioration des algorithmes, une conjonction qui ouvre de nouvelles voies pour trouver les composés intéressants cachés parmi des milliards de molécules. L’espoir final est d’accélérer le développement de médicaments.

L’approche va plus loin: des chimistes simulent intégralement sur ordinateur des processus biochimiques impliquant de petites molécules. Des algorithmes prédisent si ces dernières sont susceptibles de se lier à des protéines-cibles et, ce faisant, de déclencher ou bloquer des réactions.

A l’Université de Californie à San Francisco, l’équipe de Brian Shoichet est partie ainsi à la recherche de nouveaux analgésiques parmi 3 millions de substances. Ils devraient pouvoir activer un récepteur opioïde spécifique et atténuer par conséquent la douleur sans les effets secondaires usuels tels que constipation ou diminution de la fréquence respiratoire. L’algorithme a trouvé 23 candidats; sept d’entre eux ont montré l’action voulue lors des premiers tests en laboratoire. La start-up Epiodyne fondée par le chercheur travaille à développer un médicament fiable sur cette base.

Un point crucial pour ces méthodes est de pouvoir explorer de manière efficace des bases de données toujours plus grandes. Aux côtés de GDB-17, la chimiothèque des National Institutes of Health nommée Pubchem réunit l’ensemble des informations disponibles sur plus de 96 millions de molécules, alors que Surechembl rassemble 17 millions de composés chimiques brevetés. Et encore d’autres répertoires spécialisés sont apparus.

Quarante-deux dimensions

Pour les explorer, Jean-Louis Reymond a développé un nouveau système de coordonnées de l’espace chimique des molécules: «Nous nous sommes demandé quelles sont les propriétés élémentaires les plus importantes pour classifier les comportements d’une molécule. Après quelques ajustements, nous sommes arrivés à 42 paramètres.» Ils simplifient en quelque sorte les nombreuses propriétés d’une molécule fixant son identité (nombre d’atomes, de liaisons, d’anneaux, etc.). «Je suis moimême surpris que le simple système des 42 dimensions livre toujours des résultats aussi beaux», sourit le chimiste.

Avec son doctorant Daniel Probst, il a récemment développé une nouvelle méthode pour projeter cet espace chimique en 42 dimensions sur des cartes en 2D et 3D. Ces cartes explorables à l’aide d’un casque de réalité virtuelle condensent les informations essentielles sur les molécules et illustrent de manière visuelle les différences dans leurs composants actifs.

Les scientifiques ont d’abord organisé les molécules de la banque de données de médicaments Drugbank en fonction de leur taille et de propriétés structurelles telles que leur rigidité ou la polarité lectrique. «Cela donne une sorte de théâtre d’ombres où les molécules aux contours semblables sont réunies en groupe», dit Daniel Probst. On peut ainsi chercher des composés proches de substances actives connues. «Au final, nous cherchons à développer de nouvelles idées pour des molécules», dit Jean-Louis Reymond.

Basé à Munich, le journaliste Hubert Filser travaille régulièrement pour l’émission télévisée Quarks & Co. de la chaîne allemande WDR.