Un avance revolucionario en la ingeniería química y la industria farmacéutica se ha producido gracias a un equipo de científicos del prestigioso Instituto de Tecnología de Massachusetts (MIT). Han desarrollado un modelo computacional avanzado basado en el aprendizaje automático que puede predecir la solubilidad de casi cualquier molécula en diversos disolventes orgánicos con una precisión sin precedentes. Este logro promete cambios radicales en los procesos de diseño y síntesis de nuevos fármacos, al tiempo que abre la puerta a la aplicación de productos químicos más respetuosos con el medio ambiente y menos peligrosos en la industria.
La capacidad de predecir cómo y en qué medida se disolverá una sustancia en un disolvente determinado es un paso crucial, y a menudo limitante, en casi todas las síntesis químicas. La elección del disolvente adecuado puede significar la diferencia entre un experimento exitoso y uno fallido, una producción eficiente y una ineficiente y, en última instancia, entre el rápido desarrollo de un nuevo fármaco y un largo proceso lleno de callejones sin salida. El nuevo modelo del MIT aborda directamente este desafío, proporcionando a los químicos una poderosa herramienta para tomar decisiones informadas.
El problema de la solubilidad como obstáculo clave
La solubilidad, definida como la cantidad máxima de una sustancia (soluto) que puede disolverse en una cantidad dada de disolvente a una temperatura específica, ha sido uno de los problemas centrales de la química durante décadas. Tradicionalmente, la determinación de la solubilidad era un proceso laborioso que se basaba en el método de prueba y error, requiriendo numerosos experimentos de laboratorio. Este enfoque no solo ralentiza la investigación y el desarrollo, sino que también consume importantes recursos y genera residuos químicos.
Los modelos más antiguos para predecir la solubilidad, como el conocido modelo de solvatación de Abraham, se basaban en sumar las contribuciones de las estructuras químicas individuales dentro de una molécula para estimar su solubilidad total. Aunque tales herramientas eran útiles, su precisión era limitada y a menudo insuficiente para las moléculas complejas que se utilizan en la farmacia moderna. Por lo tanto, la predicción de la solubilidad siguió siendo un cuello de botella en la planificación de la síntesis y la producción de productos químicos, especialmente de fármacos.
Lucas Attia, uno de los autores principales del estudio y estudiante de posgrado en el MIT, enfatiza la importancia de este problema: "Predecir la solubilidad es realmente el paso que limita la velocidad en la planificación sintética y la fabricación de productos químicos. Por eso, durante mucho tiempo ha habido un enorme interés en desarrollar mejores modelos para predecirla."
El impacto del aprendizaje automático y los algoritmos avanzados
El nuevo modelo, llamado FastSolv, surgió de un proyecto en el que Attia y su colega Jackson Burns trabajaron como parte de un curso sobre la aplicación del aprendizaje automático a problemas de ingeniería química. A diferencia de los métodos anteriores, FastSolv utiliza el poder de la inteligencia artificial para analizar ingentes cantidades de datos y aprender los patrones sutiles que gobiernan las interacciones entre las moléculas de soluto y disolvente.
Para entrenar sus modelos, el equipo utilizó una base de datos publicada recientemente llamada BigSolDB, una compilación exhaustiva de datos de casi 800 artículos científicos. Esta base de datos contiene información de solubilidad para aproximadamente 800 moléculas diferentes en más de 100 de los disolventes orgánicos más utilizados en la química sintética, con más de 40.000 puntos de datos individuales.
Los científicos probaron dos enfoques diferentes. El primero, llamado FastProp, utiliza las llamadas "incrustaciones estáticas" (static embeddings), donde el modelo conoce de antemano la representación numérica de cada molécula. El segundo, ChemProp, aprende estas representaciones numéricas durante el propio proceso de entrenamiento, vinculando simultáneamente las características de la molécula con la solubilidad. Ambos modelos representan las estructuras moleculares como vectores numéricos complejos, una especie de "huellas dactilares digitales" que abarcan información sobre el número y tipo de átomos y los enlaces entre ellos. Esto permite que el algoritmo "comprenda" la química de una manera que supera la intuición humana.
Resultados sorprendentes y una precisión sin precedentes
Tras ser entrenados con la extensa base de datos, los modelos se probaron en un conjunto de unas 1.000 moléculas que no se incluyeron en el proceso de aprendizaje. Los resultados fueron impresionantes. Los nuevos modelos demostraron ser de dos a tres veces más precisos que el modelo más avanzado anterior, llamado SolProp, que también fue desarrollado en el laboratorio del profesor William Green en 2022.
Especialmente significativa es la capacidad de los nuevos modelos para predecir con precisión cómo los cambios de temperatura afectan a la solubilidad, que es un parámetro clave en las condiciones industriales reales. "La capacidad de reproducir con precisión las pequeñas variaciones en la solubilidad causadas por la temperatura, incluso cuando el ruido experimental general es muy grande, fue una señal extremadamente positiva de que la red había aprendido correctamente la función subyacente de predicción de la solubilidad", explica Burns.
Una de las mayores sorpresas fue descubrir que ambos modelos, FastProp y ChemProp, lograron un rendimiento casi idéntico. Los investigadores esperaban que ChemProp, que aprende las representaciones moleculares "sobre la marcha", fuera superior. Su éxito similar sugiere firmemente que la principal limitación para seguir mejorando la precisión no es la arquitectura del modelo, sino la calidad y la consistencia de los datos de entrenamiento disponibles. Las diferencias en los métodos y condiciones experimentales entre los distintos laboratorios introducen una variabilidad que representa el mayor desafío.
Revolución en la farmacia y la búsqueda de disolventes más ecológicos
Las aplicaciones prácticas de este modelo son de gran alcance. La industria farmacéutica, que se enfrenta constantemente al reto de formular nuevos fármacos, es uno de los beneficiarios más evidentes. Muchas moléculas potencialmente terapéuticas nunca llegan al mercado porque son extremadamente difíciles de disolver de una manera adecuada para su administración en el cuerpo humano. FastSolv permite a los científicos predecir problemas de solubilidad en una fase temprana del desarrollo y seleccionar los candidatos más prometedores.
Igualmente importante es el aspecto medioambiental. Muchos de los disolventes orgánicos más eficaces y utilizados, como la dimetilformamida (DMF) o el diclorometano (DCM), suponen un riesgo importante para la salud humana y el medio ambiente. Se sabe que son tóxicos, cancerígenos o nocivos para el sistema reproductor. Por ello, las agencias reguladoras y las propias empresas restringen cada vez más su uso.
"Hay disolventes que se sabe que disuelven casi todo. Son extremadamente útiles, pero son perjudiciales para el medio ambiente y para las personas, por lo que muchas empresas exigen que su uso se reduzca al mínimo", señala Jackson Burns. "Nuestro modelo es extremadamente útil para identificar el siguiente mejor disolvente, uno que, con suerte, sea mucho menos dañino."
El equipo de investigación, que además de los mencionados incluye al profesor Patrick Doyle y a William Green, director de la Iniciativa Energética del MIT, ha decidido hacer público su modelo. Debido a su mayor velocidad y a la simplicidad de su código para la adaptación, la versión basada en el algoritmo FastProp, llamada FastSolv, ya está disponible para la comunidad científica y la industria. Varias de las principales compañías farmacéuticas ya han comenzado a implementarlo en sus procesos de investigación y desarrollo, lo que confirma su relevancia inmediata y su potencial para transformar la forma en que se aplica la química en la práctica.
Hora de creación: 6 horas antes