Une avancée révolutionnaire en génie chimique et dans l'industrie pharmaceutique a eu lieu grâce à une équipe de scientifiques du prestigieux Massachusetts Institute of Technology (MIT). Ils ont développé un modèle informatique avancé basé sur l'apprentissage automatique qui peut prédire la solubilité de presque n'importe quelle molécule dans divers solvants organiques avec une précision sans précédent. Cette réussite promet des changements radicaux dans les processus de conception et de synthèse de nouveaux médicaments, tout en ouvrant la voie à l'application de produits chimiques plus respectueux de l'environnement et moins dangereux dans l'industrie.
La capacité de prédire comment et dans quelle mesure une substance se dissoudra dans un solvant donné est une étape cruciale, et souvent limitante, dans presque toutes les synthèses chimiques. Le choix du bon solvant peut faire la différence entre une expérience réussie et une expérience ratée, une production efficace et inefficace, et finalement, entre le développement rapide d'un nouveau médicament et un long processus plein d'impasses. Le nouveau modèle du MIT aborde directement ce défi, en fournissant aux chimistes un outil puissant pour prendre des décisions éclairées.
Le problème de la solubilité comme obstacle majeur
La solubilité, définie comme la quantité maximale d'une substance (soluté) qui peut être dissoute dans une quantité donnée de solvant à une température spécifique, constitue depuis des décennies l'un des problèmes centraux de la chimie. Traditionnellement, la détermination de la solubilité était un processus laborieux qui reposait sur la méthode des essais et erreurs, nécessitant de nombreuses expériences en laboratoire. Une telle approche non seulement ralentit la recherche et le développement, mais consomme également des ressources importantes et génère des déchets chimiques.
Les anciens modèles de prédiction de la solubilité, tels que le célèbre modèle de solvatation d'Abraham, se basaient sur l'addition des contributions des structures chimiques individuelles au sein d'une molécule pour estimer sa solubilité globale. Bien que de tels outils aient été utiles, leur précision était limitée et souvent insuffisante pour les molécules complexes utilisées dans la pharmacie moderne. La prédiction de la solubilité est donc restée un goulot d'étranglement dans la planification de la synthèse et la production de produits chimiques, en particulier de médicaments.
Lucas Attia, l'un des auteurs principaux de l'étude et doctorant au MIT, souligne l'importance de ce problème : "La prédiction de la solubilité est vraiment l'étape qui limite la vitesse dans la planification synthétique et la fabrication de produits chimiques. C'est pourquoi il existe depuis longtemps un intérêt énorme pour le développement de meilleurs modèles pour la prédire."
L'impact de l'apprentissage automatique et des algorithmes avancés
Le nouveau modèle, baptisé FastSolv, est né d'un projet sur lequel Attia et son collègue Jackson Burns ont travaillé dans le cadre d'un cours sur l'application de l'apprentissage automatique aux problèmes de génie chimique. Contrairement aux méthodes précédentes, FastSolv utilise la puissance de l'intelligence artificielle pour analyser de vastes quantités de données et apprendre les schémas subtils qui régissent les interactions entre les molécules de soluté et de solvant.
Pour entraîner leurs modèles, l'équipe a utilisé une base de données récemment publiée appelée BigSolDB, une compilation complète de données provenant de près de 800 articles scientifiques. Cette base de données contient des informations sur la solubilité d'environ 800 molécules différentes dans plus de 100 des solvants organiques les plus couramment utilisés en chimie de synthèse, avec plus de 40 000 points de données individuels.
Les scientifiques ont testé deux approches différentes. La première, appelée FastProp, utilise des "plongements statiques" (static embeddings), où le modèle connaît à l'avance la représentation numérique de chaque molécule. La seconde, ChemProp, apprend ces représentations numériques pendant le processus d'entraînement lui-même, en liant simultanément les caractéristiques de la molécule à la solubilité. Les deux modèles représentent les structures moléculaires sous forme de vecteurs numériques complexes, une sorte d'"empreintes digitales numériques" qui englobent des informations sur le nombre et le type d'atomes ainsi que sur les liaisons qui les unissent. Cela permet à l'algorithme de "comprendre" la chimie d'une manière qui dépasse l'intuition humaine.
Des résultats surprenants et une précision inédite
Après avoir été entraînés sur la vaste base de données, les modèles ont été testés sur un ensemble d'environ 1 000 molécules qui n'avaient pas été incluses dans le processus d'apprentissage. Les résultats ont été impressionnants. Les nouveaux modèles se sont avérés deux à trois fois plus précis que le modèle de pointe précédent, appelé SolProp, qui avait également été développé dans le laboratoire du professeur William Green en 2022.
La capacité des nouveaux modèles à prédire avec précision comment les changements de température affectent la solubilité est particulièrement significative, car il s'agit d'un paramètre clé dans les conditions industrielles réelles. "La capacité de reproduire avec précision les faibles variations de solubilité dues à la température, même lorsque le bruit expérimental global est très important, était un signe extrêmement positif que le réseau avait correctement appris la fonction sous-jacente de prédiction de la solubilité", explique Burns.
L'une des plus grandes surprises a été de découvrir que les deux modèles, FastProp et ChemProp, ont atteint des performances presque identiques. Les chercheurs s'attendaient à ce que ChemProp, qui apprend les représentations des molécules "à la volée", soit supérieur. Leur succès équivalent suggère fortement que la principale limitation à l'amélioration de la précision n'est pas l'architecture du modèle, mais la qualité et la cohérence des données d'entraînement disponibles. Les différences dans les méthodes et les conditions expérimentales entre les différents laboratoires introduisent une variabilité qui constitue le plus grand défi.
Une révolution dans la pharmacie et la quête de solvants plus écologiques
Les applications pratiques de ce modèle sont considérables. L'industrie pharmaceutique, qui est constamment confrontée au défi de la formulation de nouveaux médicaments, est l'un des bénéficiaires les plus évidents. De nombreuses molécules potentiellement thérapeutiques n'arrivent jamais sur le marché car elles sont extrêmement difficiles à dissoudre d'une manière adaptée à l'administration au corps humain. FastSolv permet aux scientifiques de prédire les problèmes de solubilité à un stade précoce du développement et de sélectionner les candidats les plus prometteurs.
L'aspect environnemental est tout aussi important. Bon nombre des solvants organiques les plus efficaces et les plus couramment utilisés, tels que le diméthylformamide (DMF) ou le dichlorométhane (DCM), présentent un risque important pour la santé humaine et l'environnement. Ils sont connus pour être toxiques, cancérigènes ou nocifs pour le système reproducteur. C'est pourquoi les agences de réglementation et les entreprises elles-mêmes restreignent de plus en plus leur utilisation.
"Il existe des solvants connus pour dissoudre presque tout. Ils sont extrêmement utiles, mais ils sont nocifs pour l'environnement et les personnes, c'est pourquoi de nombreuses entreprises exigent que leur utilisation soit réduite au minimum", souligne Jackson Burns. "Notre modèle est extrêmement utile pour identifier le meilleur solvant suivant, celui qui, espérons-le, est beaucoup moins nocif."
L'équipe de recherche, qui comprend en plus des personnes mentionnées le professeur Patrick Doyle et William Green, directeur de l'Initiative Énergétique du MIT, a décidé de rendre son modèle accessible au public. En raison de sa plus grande vitesse et de son code plus simple à adapter, la version basée sur l'algorithme FastProp, nommée FastSolv, est déjà disponible pour la communauté scientifique et l'industrie. Plusieurs grandes entreprises pharmaceutiques ont déjà commencé à l'intégrer dans leurs processus de recherche et développement, ce qui confirme sa pertinence immédiate et son potentiel à transformer la manière dont la chimie est appliquée dans la pratique.
Heure de création: 6 heures avant