El mundo de la inteligencia artificial (IA) avanza constantemente, trayendo consigo cambios revolucionarios en diversos sectores, desde la medicina hasta la manufactura. Entre los logros más prometedores se encuentran los llamados modelos visuales-lingüísticos (VLM), sistemas sofisticados entrenados para comprender simultáneamente imágenes y texto. Su capacidad para conectar información visual con descripciones lingüísticas abre la puerta a numerosas aplicaciones, incluyendo herramientas de diagnóstico avanzadas y sistemas automatizados de control de calidad. Sin embargo, investigaciones recientes, incluida una realizada en el Massachusetts Institute of Technology (MIT), arrojan luz sobre una debilidad crítica de estos modelos: su incapacidad para procesar correctamente las negaciones. Palabras como "no" o "sin" pueden llevar a interpretaciones completamente erróneas, lo que en áreas sensibles de aplicación puede tener consecuencias catastróficas.
Fallos inesperados de la inteligencia artificial: El problema con la negación
Imagine un escenario en una consulta de radiología. Un médico analiza la radiografía de tórax de un paciente. Observa una inflamación del tejido, pero nota que el corazón no está agrandado. En un esfuerzo por acelerar el diagnóstico y encontrar casos similares registrados, el radiólogo podría recurrir a un modelo visual-lingüístico. Si el sistema de inteligencia artificial malinterpreta la consulta y busca casos de pacientes que tienen tanto tejido inflamado como un corazón agrandado, el diagnóstico inicial podría ser drásticamente diferente. Específicamente, la combinación de tejido inflamado y un corazón agrandado sugiere fuertemente problemas cardíacos, mientras que la ausencia de un corazón agrandado, a pesar del tejido inflamado, abre la posibilidad de una variedad de otras causas potenciales. Tal error de interpretación, causado por una incomprensión de la negación, puede desviar el proceso diagnóstico en una dirección completamente equivocada.
Investigadores del MIT, en colaboración con colegas de otras instituciones, han investigado sistemáticamente este problema. Sus hallazgos indican que los modelos visuales-lingüísticos muestran una marcada propensión a cometer errores en situaciones del mundo real cuando se enfrentan a palabras de negación. Kumail Alhamoud, estudiante de posgrado en el MIT y autor principal del estudio, enfatiza: "Estas palabras de negación pueden tener un impacto muy significativo, y si usamos estos modelos a ciegas, podemos enfrentar consecuencias catastróficas". Esta advertencia no se limita solo al diagnóstico médico; se extiende a todas las aplicaciones de alto riesgo donde las decisiones se basan en información generada por estos sistemas de IA, desde vehículos autónomos hasta el control de calidad en plantas industriales.
¿Cómo funcionan los modelos visuales-lingüísticos y dónde se produce el 'cortocircuito'?
Los modelos visuales-lingüísticos (VLM) son sistemas sofisticados de aprendizaje automático que se entrenan con enormes conjuntos de datos que contienen imágenes y sus correspondientes descripciones textuales. A través del proceso de entrenamiento, los modelos aprenden a codificar tanto imágenes como texto en representaciones numéricas, conocidas como incrustaciones vectoriales. El objetivo es que el modelo aprenda a generar vectores similares para una imagen y su descripción correspondiente. Los VLM suelen utilizar dos codificadores separados: uno para procesar imágenes y otro para procesar texto. Estos codificadores se optimizan simultáneamente para que sus vectores de salida sean lo más similares posible para pares de imagen-texto semánticamente relacionados.
El problema con la negación surge de la propia naturaleza de los datos con los que se entrenan estos modelos. "Las descripciones de las imágenes expresan principalmente lo que hay en las imágenes: son etiquetas positivas. Y ese es realmente todo el problema. Nadie mira una imagen de un perro saltando una valla y la describe como 'un perro saltando una valla, sin helicóptero'", explica Marzyeh Ghassemi, profesora asociada en el MIT y autora principal de la investigación. Dado que los conjuntos de datos de entrenamiento contienen predominantemente descripciones afirmativas, los VLM simplemente no tienen suficientes oportunidades para aprender a reconocer e interpretar correctamente la negación. La falta de ejemplos donde se indique explícitamente lo que *no* está presente en la imagen lleva a que los modelos desarrollen una especie de "sesgo de afirmación".
Probando los límites de la comprensión: Cómo los modelos fallaron la prueba de negación
Para investigar más a fondo este problema, los científicos diseñaron dos tareas de referencia específicas (benchmark tasks) destinadas a probar la capacidad de los VLM para comprender la negación. En la primera tarea, utilizaron un modelo de lenguaje grande (LLM) para generar nuevas descripciones para imágenes existentes. Se le pidió al LLM que pensara en objetos relacionados que *no están presentes* en la imagen y que los incluyera en la descripción. Luego probaron los VLM dándoles consultas con palabras de negación, pidiéndoles que recuperaran imágenes que contuvieran ciertos objetos pero no otros. Por ejemplo, se le podría pedir a un modelo que encuentre imágenes con un gato, pero sin un perro.
La segunda tarea consistió en preguntas de opción múltiple. Al VLM se le mostró una imagen y tuvo que elegir la descripción más adecuada de una serie de opciones muy similares. Estas descripciones diferían solo en detalles: algunas agregaban una referencia a un objeto que no aparecía en la imagen, mientras que otras negaban un objeto que era claramente visible. Los resultados fueron devastadores. Los modelos fallaron a menudo en ambas tareas. En las tareas de recuperación de imágenes, el rendimiento se redujo en casi un 25% cuando las consultas contenían negaciones. Al responder preguntas de opción múltiple, los mejores modelos alcanzaron una precisión de solo alrededor del 39%, mientras que algunos modelos tuvieron resultados al nivel de la adivinación aleatoria, e incluso por debajo.
Una de las razones clave de tales fallos radica en el mencionado "sesgo de afirmación". Los VLM tienden a ignorar las palabras de negación y a centrarse exclusivamente في los objetos mencionados en la consulta, independientemente de si esos objetos están afirmados o negados. "Esto no sucede solo con palabras como 'no'. No importa cómo expreses la negación o la exclusión, los modelos simplemente lo ignorarán", señala Alhamoud. Esta debilidad demostró ser consistente en todos los modelos visuales-lingüísticos probados, incluidos algunos de los más conocidos y utilizados en la industria.
La búsqueda de una solución: Nuevos conjuntos de datos y direcciones futuras
Enfrentados a este desafío, los investigadores no se detuvieron solo en la identificación del problema. Como primer paso hacia una solución, desarrollaron nuevos conjuntos de datos que incluyen explícitamente palabras de negación. Utilizando un conjunto de datos existente de 10 millones de pares de imágenes y descripciones textuales, utilizaron un modelo de lenguaje grande para proponer descripciones relacionadas que especifican lo que se excluye de las imágenes. De esta manera, obtuvieron nuevas descripciones enriquecidas con negaciones. Se prestó especial atención a que estas descripciones generadas sintéticamente sonaran naturales, para evitar que los VLM entrenados con dichos datos fallaran más tarde cuando se enfrentaran a descripciones más complejas escritas por humanos en el mundo real.
Después de crear estos conjuntos de datos enriquecidos, el equipo llevó a cabo un proceso llamado ajuste fino (finetuning) de los VLM existentes. Los resultados fueron alentadores. El ajuste fino con los nuevos datos condujo a mejoras en el rendimiento en todos los segmentos. La capacidad de los modelos para recuperar imágenes basadas en consultas con negación mejoró en aproximadamente un 10%, mientras que el éxito en la tarea de responder preguntas de opción múltiple aumentó en un impresionante 30%.
"Nuestra solución no es perfecta. Solo estamos redescribiendo conjuntos de datos, lo cual es una forma de aumento de datos. Ni siquiera hemos tocado cómo funcionan estos modelos, pero esperamos que esto sea una señal de que este es un problema solucionable y que otros pueden tomar nuestra solución y mejorarla", comenta modestamente Alhamoud. No obstante, este progreso demuestra que el problema no es insuperable y que el enriquecimiento de datos dirigido puede aportar mejoras significativas.
Implicaciones más amplias y la necesidad de cautela
Los hallazgos de esta investigación, que se presentarán en la prestigiosa Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (Conference on Computer Vision and Pattern Recognition), tienen implicaciones de gran alcance. Sirven como una advertencia importante para los usuarios y desarrolladores de modelos visuales-lingüísticos. Si algo tan fundamental como la comprensión de la negación está afectado, se cuestiona la fiabilidad de estos sistemas en muchas aplicaciones existentes. La profesora Ghassemi enfatiza: "Este es un artículo técnico, pero hay cuestiones más amplias que considerar. Si algo tan básico como la negación está roto, no deberíamos usar grandes modelos visuales-lingüísticos de muchas de las formas en que los usamos actualmente, sin una evaluación intensiva".
Por lo tanto, es crucial que los usuarios potenciales de estas tecnologías sean conscientes de esta deficiencia, quizás hasta ahora poco advertida. Antes de implementar VLM en entornos de alto riesgo, es necesario realizar pruebas exhaustivas, incluyendo escenarios con negaciones, para evaluar su fiabilidad real. Este problema no se limita solo a palabras específicas como "no"; se refiere a la capacidad general de los modelos para comprender la ausencia, la exclusión o la oposición.
La investigación futura podría centrarse en cambios más profundos en la arquitectura de los propios modelos. Una posible dirección es entrenar a los VLM para procesar información textual y visual de una manera que les permita comprender mejor los matices semánticos, incluida la negación. Esto podría implicar el desarrollo de mecanismos de atención más sofisticados (attention mechanisms) o nuevas funciones de pérdida (loss functions) que penalizarían explícitamente la interpretación errónea de las negaciones durante el entrenamiento. Además, el desarrollo de conjuntos de datos adicionales y especializados, adaptados a áreas de aplicación específicas como la atención médica, podría mejorar aún más el rendimiento y la seguridad de estas poderosas herramientas. Si bien los modelos visuales-lingüísticos ofrecen indudablemente un enorme potencial, garantizar su funcionamiento robusto y fiable, especialmente en el contexto de la comprensión de la negación, sigue siendo un desafío clave para la comunidad científica.
Fuente: Massachusetts Institute of Technology
ENCUENTRE ALOJAMIENTO CERCA
Hora de creación: 10 horas antes