Ein revolutionärer Durchbruch im Chemieingenieurwesen und in der pharmazeutischen Industrie ist einem Team von Wissenschaftlern des renommierten Massachusetts Institute of Technology (MIT) zu verdanken. Sie haben ein fortschrittliches Computermodell entwickelt, das auf maschinellem Lernen basiert und mit bisher unerreichter Präzision die Löslichkeit von nahezu jedem Molekül in verschiedenen organischen Lösungsmitteln vorhersagen kann. Diese Errungenschaft verspricht tiefgreifende Veränderungen in den Prozessen des Designs und der Synthese neuer Medikamente und öffnet gleichzeitig die Tür für die Anwendung umweltfreundlicherer und weniger gefährlicher Chemikalien in der Industrie.
Die Fähigkeit vorherzusagen, wie und in welchem Maße sich eine Substanz in einem bestimmten Lösungsmittel auflöst, ist ein entscheidender und oft limitierender Schritt in nahezu jeder chemischen Synthese. Die Wahl des richtigen Lösungsmittels kann den Unterschied zwischen einem erfolgreichen und einem erfolglosen Experiment, einer effizienten und einer ineffizienten Produktion und letztendlich zwischen der schnellen Entwicklung eines neuen Medikaments und einem langwierigen Prozess voller Sackgassen bedeuten. Das neue Modell des MIT geht diese Herausforderung direkt an und gibt Chemikern ein leistungsfähiges Werkzeug an die Hand, um fundierte Entscheidungen zu treffen.
Das Problem der Löslichkeit als entscheidendes Hindernis
Die Löslichkeit, definiert als die maximale Menge einer Substanz (des Gelösten), die sich in einer bestimmten Menge eines Lösungsmittels bei einer gegebenen Temperatur auflösen kann, stellt seit Jahrzehnten eines der zentralen Probleme in der Chemie dar. Traditionell war die Bestimmung der Löslichkeit ein mühsamer Prozess, der auf Versuch und Irrtum beruhte und zahlreiche Laborexperimente erforderte. Ein solcher Ansatz verlangsamt nicht nur Forschung und Entwicklung, sondern verbraucht auch erhebliche Ressourcen und erzeugt chemischen Abfall.
Ältere Modelle zur Vorhersage der Löslichkeit, wie das bekannte Abraham-Solvatationsmodell, basierten auf der Summierung der Beiträge einzelner chemischer Strukturen innerhalb eines Moleküls, um dessen Gesamtlöslichkeit abzuschätzen. Obwohl solche Werkzeuge nützlich waren, war ihre Genauigkeit begrenzt und oft unzureichend für die komplexen Moleküle, die in der modernen Pharmazie verwendet werden. Die Vorhersage der Löslichkeit blieb daher ein Engpass bei der Planung der Synthese und der Herstellung von Chemikalien, insbesondere von Arzneimitteln.
Lucas Attia, einer der Hauptautoren der Studie und Doktorand am MIT, betont die Bedeutung dieses Problems: "Die Vorhersage der Löslichkeit ist wirklich der geschwindigkeitsbestimmende Schritt bei der synthetischen Planung und der Herstellung von Chemikalien. Aus diesem Grund besteht seit langem ein enormes Interesse an der Entwicklung besserer Modelle zu ihrer Vorhersage."
Der Einfluss von maschinellem Lernen und fortgeschrittenen Algorithmen
Das neue Modell mit dem Namen FastSolv entstand aus einem Projekt, an dem Attia und sein Kollege Jackson Burns im Rahmen eines Kurses über die Anwendung des maschinellen Lernens auf Probleme des Chemieingenieurwesens arbeiteten. Im Gegensatz zu früheren Methoden nutzt FastSolv die Kraft der künstlichen Intelligenz, um riesige Datenmengen zu analysieren und die subtilen Muster zu lernen, die die Wechselwirkungen zwischen den Molekülen des gelösten Stoffes und des Lösungsmittels steuern.
Für das Training ihrer Modelle nutzte das Team eine kürzlich veröffentlichte Datenbank namens BigSolDB, eine umfassende Zusammenstellung von Daten aus fast 800 wissenschaftlichen Arbeiten. Diese Datenbank enthält Informationen zur Löslichkeit von etwa 800 verschiedenen Molekülen in mehr als 100 der am häufigsten in der synthetischen Chemie verwendeten organischen Lösungsmittel, mit über 40.000 einzelnen Datenpunkten.
Die Wissenschaftler testeten zwei verschiedene Ansätze. Der erste, FastProp genannt, verwendet sogenannte "statische Einbettungen" (static embeddings), bei denen das Modell die numerische Darstellung jedes Moleküls im Voraus kennt. Der zweite, ChemProp, erlernt diese numerischen Darstellungen während des Trainingsprozesses selbst und verknüpft dabei gleichzeitig die Merkmale des Moleküls mit der Löslichkeit. Beide Modelle stellen molekulare Strukturen als komplexe numerische Vektoren dar, eine Art "digitaler Fingerabdruck", der Informationen über die Anzahl und Art der Atome sowie die Bindungen zwischen ihnen enthält. Dies ermöglicht es dem Algorithmus, die Chemie auf eine Weise zu "verstehen", die die menschliche Intuition übersteigt.
Überraschende Ergebnisse und beispiellose Genauigkeit
Nach dem Training mit der umfangreichen Datenbank wurden die Modelle an einem Satz von etwa 1.000 Molekülen getestet, die nicht in den Lernprozess einbezogen waren. Die Ergebnisse waren beeindruckend. Die neuen Modelle erwiesen sich als zwei- bis dreimal genauer als das bisher fortschrittlichste Modell namens SolProp, das ebenfalls 2022 im Labor von Professor William Green entwickelt wurde.
Besonders bemerkenswert ist die Fähigkeit der neuen Modelle, präzise vorherzusagen, wie sich Temperaturänderungen auf die Löslichkeit auswirken, was ein entscheidender Parameter unter realen industriellen Bedingungen ist. "Die Fähigkeit, die kleinen, durch die Temperatur verursachten Schwankungen der Löslichkeit genau zu reproduzieren, selbst wenn das experimentelle Gesamtrauschen sehr groß ist, war ein äußerst positives Zeichen dafür, dass das Netzwerk die zugrunde liegende Funktion zur Vorhersage der Löslichkeit korrekt gelernt hatte", erklärt Burns.
Eine der größten Überraschungen war die Entdeckung, dass beide Modelle, FastProp und ChemProp, eine nahezu identische Leistung erzielten. Die Forscher hatten erwartet, dass ChemProp, das die Repräsentationen von Molekülen "on the fly" lernt, überlegen sein würde. Ihr gleicher Erfolg deutet stark darauf hin, dass die Haupteinschränkung für eine weitere Verbesserung der Genauigkeit nicht die Architektur des Modells ist, sondern die Qualität und Konsistenz der verfügbaren Trainingsdaten. Unterschiede in den experimentellen Methoden und Bedingungen in verschiedenen Labors führen zu einer Variabilität, die die größte Herausforderung darstellt.
Revolution in der Pharmazie und die Suche nach grüneren Lösungsmitteln
Die praktischen Anwendungen dieses Modells sind weitreichend. Die pharmazeutische Industrie, die ständig vor der Herausforderung steht, neue Medikamente zu formulieren, ist einer der offensichtlichsten Nutznießer. Viele potenziell heilende Moleküle kommen nie auf den Markt, weil es extrem schwierig ist, sie so aufzulösen, dass sie für die Anwendung im menschlichen Körper geeignet sind. FastSolv ermöglicht es Wissenschaftlern, bereits in einer frühen Phase der Entwicklung Löslichkeitsprobleme vorherzusagen und die vielversprechendsten Kandidaten auszuwählen.
Ebenso wichtig ist der ökologische Aspekt. Viele der wirksamsten und am häufigsten verwendeten organischen Lösungsmittel, wie Dimethylformamid (DMF) oder Dichlormethan (DCM), stellen eine erhebliche Gefahr für die menschliche Gesundheit und die Umwelt dar. Sie sind als toxisch, krebserregend oder fortpflanzungsgefährdend bekannt. Aus diesem Grund schränken Regulierungsbehörden und die Unternehmen selbst ihre Verwendung zunehmend ein.
"Es gibt Lösungsmittel, von denen bekannt ist, dass sie fast alles auflösen. Sie sind äußerst nützlich, aber sie sind schädlich für die Umwelt und für die Menschen, weshalb viele Unternehmen fordern, ihre Verwendung auf ein Minimum zu beschränken", betont Jackson Burns. "Unser Modell ist äußerst nützlich, um das nächstbeste Lösungsmittel zu identifizieren, das hoffentlich viel weniger schädlich ist."
Das Forschungsteam, zu dem neben den bereits Erwähnten auch Professor Patrick Doyle und William Green, der Direktor der MIT Energie Initiative, gehören, hat beschlossen, sein Modell öffentlich zugänglich zu machen. Aufgrund der höheren Geschwindigkeit und des einfacheren Codes zur Anpassung ist die auf dem FastProp-Algorithmus basierende Version namens FastSolv bereits für die wissenschaftliche Gemeinschaft und die Industrie verfügbar. Mehrere führende Pharmaunternehmen haben bereits begonnen, es in ihre Forschungs- und Entwicklungsprozesse zu implementieren, was seine unmittelbare Relevanz und sein Potenzial bestätigt, die Art und Weise, wie Chemie in der Praxis angewendet wird, zu verändern.
Erstellungszeitpunkt: 6 Stunden zuvor