Rewolucyjny przełom w inżynierii chemicznej i przemyśle farmaceutycznym nastąpił dzięki zespołowi naukowców z prestiżowego Massachusetts Institute of Technology (MIT). Opracowali oni zaawansowany model komputerowy oparty na uczeniu maszynowym, który z niespotykaną dotąd precyzją potrafi przewidzieć rozpuszczalność niemal każdej cząsteczki w różnych rozpuszczalnikach organicznych. Osiągnięcie to obiecuje radykalne zmiany w procesach projektowania i syntezy nowych leków, jednocześnie otwierając drzwi do stosowania w przemyśle bardziej przyjaznych dla środowiska i mniej niebezpiecznych chemikaliów.
Zdolność do przewidywania, jak i w jakim stopniu dana substancja rozpuści się w określonym rozpuszczalniku, jest kluczowym, a często ograniczającym, krokiem w niemal każdej syntezie chemicznej. Wybór odpowiedniego rozpuszczalnika może oznaczać różnicę między udanym a nieudanym eksperymentem, wydajną a niewydajną produkcją, a ostatecznie między szybkim opracowaniem nowego leku a długotrwałym procesem pełnym ślepych zaułków. Nowy model z MIT bezpośrednio odpowiada na to wyzwanie, dostarczając chemikom potężne narzędzie do podejmowania świadomych decyzji.
Problem rozpuszczalności jako kluczowa przeszkoda
Rozpuszczalność, definiowana jako maksymalna ilość substancji (rozpuszczonej), która może zostać rozpuszczona w określonej ilości rozpuszczalnika w danej temperaturze, od dziesięcioleci stanowi jeden z centralnych problemów w chemii. Tradycyjnie, określanie rozpuszczalności było żmudnym procesem opartym na metodzie prób i błędów, wymagającym licznych eksperymentów laboratoryjnych. Takie podejście nie tylko spowalnia badania i rozwój, ale także pochłania znaczne zasoby i generuje odpady chemiczne.
Starsze modele do przewidywania rozpuszczalności, takie jak znany model solwatacji Abrahama, opierały się na sumowaniu wkładów poszczególnych struktur chemicznych w cząsteczce w celu oszacowania jej całkowitej rozpuszczalności. Chociaż takie narzędzia były użyteczne, ich dokładność była ograniczona i często niewystarczająca dla złożonych cząsteczek, jakie stosuje się w nowoczesnej farmacji. Przewidywanie rozpuszczalności pozostało więc wąskim gardłem w planowaniu syntezy i produkcji chemikaliów, zwłaszcza leków.
Lucas Attia, jeden z głównych autorów badania i doktorant na MIT, podkreśla wagę tego problemu: "Przewidywanie rozpuszczalności jest naprawdę krokiem ograniczającym szybkość w planowaniu syntezy i produkcji chemikaliów. Z tego powodu od dawna istnieje ogromne zainteresowanie rozwojem lepszych modeli do jej przewidywania."
Wpływ uczenia maszynowego i zaawansowanych algorytmów
Nowy model, nazwany FastSolv, wyrósł z projektu, nad którym Attia i jego kolega Jackson Burns pracowali w ramach kursu dotyczącego zastosowania uczenia maszynowego w problemach inżynierii chemicznej. W przeciwieństwie do poprzednich metod, FastSolv wykorzystuje moc sztucznej inteligencji do analizy ogromnych ilości danych i uczenia się subtelnych wzorców, które rządzą interakcjami między cząsteczkami substancji rozpuszczonej a rozpuszczalnikiem.
Do trenowania swoich modeli zespół wykorzystał niedawno opublikowaną bazę danych BigSolDB, obszerną kompilację danych z prawie 800 prac naukowych. Baza ta zawiera informacje o rozpuszczalności dla około 800 różnych cząsteczek w ponad 100 najczęściej stosowanych w chemii syntetycznej rozpuszczalnikach organicznych, z ponad 40 000 pojedynczych punktów danych.
Naukowcy przetestowali dwa różne podejścia. Pierwsze, nazwane FastProp, wykorzystuje tak zwane "statyczne osadzenia" (static embeddings), gdzie model z góry zna numeryczną reprezentację każdej cząsteczki. Drugie, ChemProp, uczy się tych numerycznych reprezentacji podczas samego procesu trenowania, jednocześnie łącząc cechy cząsteczki z rozpuszczalnością. Oba modele reprezentują struktury molekularne jako złożone wektory numeryczne, swoiste "cyfrowe odciski palców", które obejmują informacje o liczbie i rodzaju atomów oraz wiązaniach między nimi. Pozwala to algorytmowi "rozumieć" chemię w sposób, który wykracza poza ludzką intuicję.
Zaskakujące wyniki i niespotykana dokładność
Po przeszkoleniu na obszernej bazie danych, modele zostały przetestowane na zestawie około 1000 cząsteczek, które nie były uwzględnione w procesie uczenia. Wyniki były imponujące. Nowe modele okazały się od dwóch do trzech razy dokładniejsze od poprzedniego najnowocześniejszego modelu o nazwie SolProp, który również został opracowany w laboratorium profesora Williama Greena w 2022 roku.
Szczególnie istotna jest zdolność nowych modeli do precyzyjnego przewidywania, jak zmiany temperatury wpływają na rozpuszczalność, co jest kluczowym parametrem w rzeczywistych warunkach przemysłowych. "Zdolność do dokładnego odtworzenia niewielkich wahań rozpuszczalności spowodowanych temperaturą, nawet gdy ogólny szum eksperymentalny jest bardzo duży, była niezwykle pozytywnym znakiem, że sieć prawidłowo nauczyła się podstawowej funkcji przewidywania rozpuszczalności" - wyjaśnia Burns.
Jednym z największych zaskoczeń było odkrycie, że oba modele, FastProp i ChemProp, osiągnęły niemal identyczną wydajność. Badacze spodziewali się, że ChemProp, który uczy się reprezentacji cząsteczek "w locie", będzie lepszy. Ich jednakowy sukces mocno sugeruje, że głównym ograniczeniem w dalszym poprawianiu dokładności nie jest architektura modelu, ale jakość i spójność dostępnych danych treningowych. Różnice w metodach i warunkach eksperymentalnych w różnych laboratoriach wprowadzają zmienność, która stanowi największe wyzwanie.
Rewolucja w farmacji i poszukiwanie bardziej ekologicznych rozpuszczalników
Praktyczne zastosowania tego modelu są dalekosiężne. Przemysł farmaceutyczny, który nieustannie boryka się z wyzwaniem formulacji nowych leków, jest jednym z najbardziej oczywistych beneficjentów. Wiele potencjalnie leczniczych cząsteczek nigdy nie trafia na rynek, ponieważ niezwykle trudno jest je rozpuścić w sposób odpowiedni do podania ludzkiemu organizmowi. FastSolv pozwala naukowcom już na wczesnym etapie rozwoju przewidzieć problemy z rozpuszczalnością i wybrać najbardziej obiecujących kandydatów.
Równie ważny jest aspekt ekologiczny. Wiele z najskuteczniejszych i najczęściej stosowanych rozpuszczalników organicznych, takich jak dimetyloformamid (DMF) czy dichlorometan (DCM), stanowi znaczne zagrożenie dla zdrowia ludzkiego i środowiska. Są one znane jako toksyczne, rakotwórcze lub szkodliwe dla układu rozrodczego. Z tego powodu agencje regulacyjne i same firmy coraz bardziej ograniczają ich stosowanie.
"Istnieją rozpuszczalniki, o których wiadomo, że rozpuszczają prawie wszystko. Są niezwykle użyteczne, ale są szkodliwe dla środowiska i ludzi, dlatego wiele firm wymaga, aby ich użycie zostało zminimalizowane" - podkreśla Jackson Burns. "Nasz model jest niezwykle przydatny w identyfikacji następnego najlepszego rozpuszczalnika, takiego, który, miejmy nadzieję, jest znacznie mniej szkodliwy."
Zespół badawczy, w skład którego oprócz wymienionych osób wchodzą również profesor Patrick Doyle oraz William Green, dyrektor Inicjatywy Energetycznej MIT, postanowił udostępnić swój model publicznie. Ze względu na większą szybkość i prostszy kod do adaptacji, wersja oparta na algorytmie FastProp, nazwana FastSolv, jest już dostępna dla społeczności naukowej i przemysłu. Kilka wiodących firm farmaceutycznych już zaczęło wdrażać go w swoich procesach badawczo-rozwojowych, co potwierdza jego natychmiastową przydatność i potencjał do transformacji sposobu, w jaki chemia jest stosowana w praktyce.
Czas utworzenia: 6 godzin temu