Avances revolucionarios en la comprensión de los mecanismos celulares y direcciones potencialmente nuevas en el diagnóstico y tratamiento de enfermedades se vislumbran gracias a un enfoque innovador que aprovecha el poder de la inteligencia artificial. Los científicos han desarrollado un método computacional sofisticado que puede predecir la ubicación de casi todas las proteínas dentro de una célula humana con una precisión excepcional. Este modelo, entrenado sobre la base de una comprensión compartida del comportamiento de las proteínas y las células, abre la puerta a una identificación más rápida y eficiente de condiciones patológicas y al desarrollo de nuevas estrategias terapéuticas.
La cuestión de dónde se localiza una proteína dentro de una célula no es meramente académica; tiene profundas implicaciones para la función celular y, en consecuencia, para la salud. La localización incorrecta de proteínas, es decir, su ubicación en un compartimento celular inadecuado, puede ser un desencadenante o un factor significativo en el desarrollo de una serie de enfermedades graves. Por ejemplo, en la enfermedad de Alzheimer, la acumulación de ciertas proteínas en lugares incorrectos en las células cerebrales conduce a la neurodegeneración. De manera similar, en la fibrosis quística, una proteína defectuosa no llega a su ubicación correcta en la membrana celular, lo que provoca una alteración del transporte de iones. En el contexto del cáncer, la distribución anormal de proteínas puede promover el crecimiento y la división celular descontrolados o permitir que las células cancerosas evadan la respuesta inmune.
Dado que una sola célula humana contiene aproximadamente 70,000 proteínas diferentes y sus variantes, identificar manualmente la ubicación de cada una de ellas representa un desafío enorme. Los métodos experimentales tradicionales generalmente permiten probar solo un pequeño número de proteínas a la vez, lo que hace que el proceso sea extremadamente costoso, lento y laborioso. Cada experimento requiere una preparación cuidadosa, reactivos específicos y equipos sofisticados, y los resultados a menudo proporcionan solo una fracción de la imagen de la compleja organización intracelular.
Nueva generación de técnicas computacionales y el Atlas de Proteínas Humanas
Para acelerar y simplificar esta compleja tarea, se están desarrollando nuevas generaciones de técnicas computacionales. Se basan en modelos de aprendizaje automático que utilizan extensos conjuntos de datos con información sobre miles de proteínas y sus ubicaciones, medidas en diferentes líneas celulares. Uno de los recursos más grandes y significativos de este tipo es el Atlas de proteínas humanas (Human Protein Atlas). Este catálogo completo contiene datos sobre el comportamiento subcelular de más de 13,000 proteínas en más de 40 tipos diferentes de líneas celulares. A pesar de su impresionante tamaño, el Atlas de Proteínas Humanas hasta ahora solo ha logrado explorar alrededor del 0,25 por ciento de todas las combinaciones posibles de proteínas y líneas celulares dentro de su base de datos. Esto indica claramente la inmensidad del espacio inexplorado y la necesidad de herramientas más avanzadas que puedan mapear eficientemente la parte restante del universo de proteínas.
Enfrentados a este desafío, investigadores de instituciones prestigiosas como el MIT, la Universidad de Harvard y el Broad Institute (un instituto conjunto del MIT y Harvard) han desarrollado un nuevo enfoque computacional. Su método permite la exploración eficiente del espacio restante, aún no mapeado, de la localización intracelular de proteínas. La ventaja clave de este nuevo enfoque es su capacidad para predecir la ubicación de cualquier proteína en cualquier línea celular humana, incluso en los casos en que ni la proteína específica ni la línea celular concreta hayan sido probadas experimentalmente previamente. Esto representa un avance significativo en comparación con los métodos existentes.
Precisión a nivel de célula individual
La técnica que han desarrollado va un paso más allá que muchos métodos existentes basados en inteligencia artificial porque localiza la proteína a nivel de célula individual, en lugar de proporcionar una estimación promedio para todas las células de un tipo determinado. Esta capacidad de localización a nivel de una sola célula es de suma importancia. Por ejemplo, permite la determinación precisa de la posición de una proteína en una célula cancerosa específica después de la aplicación de la terapia, lo que puede proporcionar información crucial sobre la eficacia del tratamiento y los mecanismos de resistencia. Comprender la heterogeneidad dentro de una población de células, incluso dentro de la misma línea celular o tejido, es clave para desarrollar enfoques médicos personalizados.
El equipo de investigación combinó un modelo de lenguaje de proteínas con un tipo especial de modelo de visión por computadora para capturar información rica y detallada sobre la proteína y la célula. El modelo de lenguaje de proteínas analiza la secuencia de aminoácidos que compone la proteína, extrayendo información sobre su estructura y propiedades que determinan su afinidad por compartimentos celulares específicos. Por otro lado, el modelo de visión por computadora, conocido como modelo de completado de imagen (image inpainting model), analiza imágenes de la célula teñida con marcadores específicos para recopilar información sobre el estado de esa célula: su tipo, características individuales y la posible presencia de estrés o cambios patológicos. El resultado final que recibe el usuario es una imagen de la célula con un área resaltada que indica la ubicación predicha de la proteína. Dado que la localización de proteínas es a menudo un indicador de su estado funcional, esta técnica puede ayudar a investigadores y médicos a diagnosticar enfermedades de manera más eficaz, identificar moléculas diana para nuevos fármacos y permitir a los biólogos comprender mejor la conexión entre procesos biológicos complejos y la distribución de proteínas dentro de la célula.
Yitong Tseo, estudiante de doctorado en el programa de Biología Computacional y de Sistemas del MIT y uno de los autores principales del artículo publicado sobre este tema en la revista Nature Methods el 15 de mayo de 2025, señala: "Podrías realizar estos experimentos de localización de proteínas en una computadora sin necesidad de entrar al laboratorio, con la esperanza de ahorrar meses de esfuerzo. Aunque aún necesitarías verificar la predicción, esta técnica podría actuar como una selección inicial de lo que se debe probar experimentalmente."
Junto a Tseo, como autora principal del artículo figura Xinyi Zhang, estudiante de doctorado en el Departamento de Ingeniería Eléctrica e Informática (EECS) y en el Centro Eric and Wendy Schmidt del Broad Institute. Entre los autores también se encuentran Yunhao Bai del Broad Institute y los autores principales Fei Chen, profesor asistente en Harvard y miembro del Broad Institute, y Caroline Uhler, profesora de ingeniería en el Departamento Andrew and Erna Viterbi en EECS y en el Instituto de Datos, Sistemas y Sociedad (IDSS) en el MIT, quien también es directora del Centro Eric and Wendy Schmidt e investigadora en el Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT.
Colaboración de modelos avanzados: Presentación de PUPS
Muchos modelos existentes para predecir el comportamiento de las proteínas están limitados porque solo pueden hacer predicciones basadas en datos sobre proteínas y células en las que fueron entrenados o no son capaces de determinar con precisión la ubicación de las proteínas dentro de una sola célula. Para superar estas limitaciones, los investigadores crearon un método de dos partes para predecir la ubicación subcelular de proteínas nunca antes vistas, llamado PUPS (Prediction of Unseen Proteins' Subcellular localization - Predicción de la Localización Subcelular de Proteínas No Vistas).
La primera parte de PUPS utiliza un modelo de secuencia de proteínas. Este modelo está diseñado para capturar las propiedades de la proteína que determinan su localización, así como su estructura tridimensional, basándose en la cadena de aminoácidos que la forma. La secuencia de aminoácidos es la información principal que dicta cómo se plegará una proteína y qué funciones realizará, incluidas las señales para su direccionamiento dentro de la célula.
La segunda parte del sistema incluye un modelo de completado de imagen (image inpainting model). Se trata de un sofisticado modelo de visión por computadora diseñado originalmente para rellenar las partes faltantes de una imagen. En este contexto, el modelo analiza tres imágenes de la célula teñidas de forma diferente para recopilar información clave sobre su estado. Estas imágenes suelen mostrar el núcleo (con un marcador como DAPI), los microtúbulos (componentes importantes del citoesqueleto) y el retículo endoplasmático (un orgánulo clave para la síntesis y el transporte de proteínas). Al analizar estos marcadores, el modelo obtiene información sobre el tipo de célula, sus características morfológicas individuales y detecta si la célula está bajo alguna forma de estrés, lo que puede afectar la distribución de las proteínas.
PUPS luego fusiona las representaciones, o descripciones digitales, creadas a partir de cada uno de estos dos modelos: el modelo de secuencia de proteínas y el modelo de imagen celular. Al combinar esta información, el sistema predice dónde se encuentra la proteína dentro de una célula específica e individual. Para visualizar esta predicción, se utiliza un decodificador de imágenes que genera una imagen de salida. En esa imagen se marca claramente el área donde PUPS predice que se encuentra la proteína en investigación.
"Diferentes células dentro de una misma línea celular muestran diferentes características, y nuestro modelo es capaz de comprender ese matiz", explica Tseo. Esta capacidad de distinguir variaciones celulares individuales es crucial para un análisis preciso.
El usuario del sistema PUPS necesita ingresar la secuencia de aminoácidos que forma la proteína de interés y tres imágenes de marcadores celulares: una para el núcleo, una para los microtúbulos y una para el retículo endoplasmático. Después de ingresar estos datos, PUPS realiza el resto del análisis y genera una predicción de localización.
Comprensión más profunda a través de un proceso de aprendizaje innovador
Durante el proceso de entrenamiento del modelo PUPS, los investigadores aplicaron varias técnicas innovadoras para enseñarle a combinar eficazmente la información de ambos modelos constitutivos. El objetivo era capacitar a PUPS para que hiciera una suposición fundamentada sobre la ubicación de la proteína, incluso si nunca antes había "visto" esa proteína o línea celular específica.
Una de estas técnicas implica asignar una tarea secundaria al modelo durante el entrenamiento: nombrar explícitamente el compartimento de localización, como el núcleo celular, las mitocondrias o el aparato de Golgi. Esta tarea se realiza en paralelo con la tarea principal de completado de imagen (predecir dónde se encuentra la proteína en la imagen). Se ha demostrado que este paso adicional ayuda al modelo a aprender de manera más eficaz y a desarrollar una mejor comprensión general de los posibles compartimentos celulares y las señales que guían a las proteínas hacia ellos. Una analogía podría ser un maestro que pide a los alumnos no solo que dibujen todas las partes de una flor, sino también que escriban sus nombres. Este requisito adicional de nombrar refuerza el aprendizaje y la comprensión.
Además, el hecho de que PUPS se entrene simultáneamente con datos sobre proteínas y líneas celulares le ayuda a desarrollar una comprensión más profunda de dónde se localizan típicamente las proteínas en una imagen celular. El sistema aprende a reconocer patrones sutiles y correlaciones entre las características de las proteínas (derivadas de su secuencia) y las características visuales de la célula (derivadas de las imágenes de los marcadores).
Es impresionante que PUPS pueda incluso comprender de forma independiente cómo las diferentes partes de la secuencia de una proteína contribuyen por separado a su localización general. Esto significa que el modelo puede identificar motivos o dominios de aminoácidos específicos dentro de la proteína que actúan como "códigos postales", dirigiendo la proteína a su destino en la célula.
"La mayoría de los otros métodos generalmente requieren que primero tengas un marcador para la proteína, por lo que ya la has visto en tus datos de entrenamiento. Nuestro enfoque es único porque puede generalizar simultáneamente a través de proteínas y líneas celulares", enfatiza Zhang. Esta capacidad de generalizar a casos no vistos es una ventaja clave de PUPS.
Dado que PUPS puede generalizar a proteínas que no encontró durante el entrenamiento, es capaz de capturar cambios en la localización causados por mutaciones proteicas únicas no incluidas en el Atlas de Proteínas Humanas. Esto es particularmente importante para estudiar enfermedades genéticas donde las mutaciones pueden alterar el comportamiento de las proteínas, incluida su distribución intracelular.
Los investigadores confirmaron la capacidad de PUPS para predecir la ubicación subcelular de nuevas proteínas en líneas celulares nunca antes vistas mediante la realización de experimentos de laboratorio y la comparación de los resultados. Una comparación con un método de inteligencia artificial básico existente demostró que PUPS, en promedio, mostró un error de predicción menor para las proteínas probadas. Estos resultados de validación confirman la robustez y precisión del nuevo modelo.
Direcciones futuras y aplicaciones potenciales
Mirando hacia el futuro, el equipo de investigación planea mejorar aún más PUPS. Uno de los objetivos es permitir que el modelo comprenda las interacciones proteína-proteína, es decir, cómo interactúan las proteínas entre sí y cómo estas interacciones pueden afectar su localización conjunta. También están trabajando para que PUPS pueda predecir la localización de múltiples proteínas simultáneamente dentro de una sola célula, proporcionando así una imagen más compleja de la organización celular.
La visión a más largo plazo incluye entrenar a PUPS para realizar predicciones no solo en células cultivadas en condiciones de laboratorio, sino también en muestras de tejido humano vivo. Tal avance tendría una enorme importancia para el diagnóstico clínico y el desarrollo de terapias, permitiendo el análisis de la localización de proteínas en el contexto biológico real de un paciente. Comprender cómo se comportan las proteínas en el complejo entorno de los tejidos, con diferentes tipos de células e interacciones intercelulares, abriría nuevas perspectivas para la medicina personalizada. Este trabajo pionero en la intersección de la inteligencia artificial, la biología celular y la medicina promete transformar nuestro enfoque para investigar, diagnosticar y tratar enfermedades, poniendo el poder del análisis predictivo al servicio de la salud humana.
La investigación fue financiada por el Centro Eric and Wendy Schmidt del Broad Institute, los Institutos Nacionales de Salud (NIH), la Fundación Nacional de Ciencias (NSF), el Burroughs Wellcome Fund, la Fundación Searle Scholars, el Harvard Stem Cell Institute, el Merkin Institute, la Oficina de Investigación Naval y el Departamento de Energía de EE. UU.
Fuente: Massachusetts Institute of Technology
Greška: Koordinate nisu pronađene za mjesto:
Hora de creación: 16 mayo, 2025