IA y negación: defecto peligroso del modelo VLM según un estudio del MIT

Punto ciego fatal de la IA: los modelos de lenguaje visual no entienden el "no", según un estudio

Los modelos de lenguaje visual (VLM) revolucionan la tecnología, pero un estudio del MIT revela su defecto crítico: un malentendido fundamental de la negación. Esta debilidad puede conducir a errores catastróficos en medicina y otras aplicaciones de IA de alto riesgo, ya que los modelos ignoran palabras como "no" o "no", cuestionando su confiabilidad.

Punto ciego fatal de la IA: los modelos de lenguaje visual no entienden el "no", según un estudio
Photo by: Domagoj Skledar/ arhiva (vlastita)

El mundo de la inteligencia artificial (IA) avanza constantemente, trayendo consigo cambios revolucionarios en diversos sectores, desde la medicina hasta la manufactura. Entre los logros más prometedores se encuentran los llamados modelos visuales-lingüísticos (VLM), sistemas sofisticados entrenados para comprender simultáneamente imágenes y texto. Su capacidad para conectar información visual con descripciones lingüísticas abre la puerta a numerosas aplicaciones, incluyendo herramientas de diagnóstico avanzadas y sistemas automatizados de control de calidad. Sin embargo, investigaciones recientes, incluida una realizada en el Massachusetts Institute of Technology (MIT), arrojan luz sobre una debilidad crítica de estos modelos: su incapacidad para procesar correctamente las negaciones. Palabras como "no" o "sin" pueden llevar a interpretaciones completamente erróneas, lo que en áreas sensibles de aplicación puede tener consecuencias catastróficas.


Fallos inesperados de la inteligencia artificial: El problema con la negación


Imagine un escenario en una consulta de radiología. Un médico analiza la radiografía de tórax de un paciente. Observa una inflamación del tejido, pero nota que el corazón no está agrandado. En un esfuerzo por acelerar el diagnóstico y encontrar casos similares registrados, el radiólogo podría recurrir a un modelo visual-lingüístico. Si el sistema de inteligencia artificial malinterpreta la consulta y busca casos de pacientes que tienen tanto tejido inflamado como un corazón agrandado, el diagnóstico inicial podría ser drásticamente diferente. Específicamente, la combinación de tejido inflamado y un corazón agrandado sugiere fuertemente problemas cardíacos, mientras que la ausencia de un corazón agrandado, a pesar del tejido inflamado, abre la posibilidad de una variedad de otras causas potenciales. Tal error de interpretación, causado por una incomprensión de la negación, puede desviar el proceso diagnóstico en una dirección completamente equivocada.


Investigadores del MIT, en colaboración con colegas de otras instituciones, han investigado sistemáticamente este problema. Sus hallazgos indican que los modelos visuales-lingüísticos muestran una marcada propensión a cometer errores en situaciones del mundo real cuando se enfrentan a palabras de negación. Kumail Alhamoud, estudiante de posgrado en el MIT y autor principal del estudio, enfatiza: "Estas palabras de negación pueden tener un impacto muy significativo, y si usamos estos modelos a ciegas, podemos enfrentar consecuencias catastróficas". Esta advertencia no se limita solo al diagnóstico médico; se extiende a todas las aplicaciones de alto riesgo donde las decisiones se basan en información generada por estos sistemas de IA, desde vehículos autónomos hasta el control de calidad en plantas industriales.


¿Cómo funcionan los modelos visuales-lingüísticos y dónde se produce el 'cortocircuito'?


Los modelos visuales-lingüísticos (VLM) son sistemas sofisticados de aprendizaje automático que se entrenan con enormes conjuntos de datos que contienen imágenes y sus correspondientes descripciones textuales. A través del proceso de entrenamiento, los modelos aprenden a codificar tanto imágenes como texto en representaciones numéricas, conocidas como incrustaciones vectoriales. El objetivo es que el modelo aprenda a generar vectores similares para una imagen y su descripción correspondiente. Los VLM suelen utilizar dos codificadores separados: uno para procesar imágenes y otro para procesar texto. Estos codificadores se optimizan simultáneamente para que sus vectores de salida sean lo más similares posible para pares de imagen-texto semánticamente relacionados.


El problema con la negación surge de la propia naturaleza de los datos con los que se entrenan estos modelos. "Las descripciones de las imágenes expresan principalmente lo que hay en las imágenes: son etiquetas positivas. Y ese es realmente todo el problema. Nadie mira una imagen de un perro saltando una valla y la describe como 'un perro saltando una valla, sin helicóptero'", explica Marzyeh Ghassemi, profesora asociada en el MIT y autora principal de la investigación. Dado que los conjuntos de datos de entrenamiento contienen predominantemente descripciones afirmativas, los VLM simplemente no tienen suficientes oportunidades para aprender a reconocer e interpretar correctamente la negación. La falta de ejemplos donde se indique explícitamente lo que *no* está presente en la imagen lleva a que los modelos desarrollen una especie de "sesgo de afirmación".


Probando los límites de la comprensión: Cómo los modelos fallaron la prueba de negación


Para investigar más a fondo este problema, los científicos diseñaron dos tareas de referencia específicas (benchmark tasks) destinadas a probar la capacidad de los VLM para comprender la negación. En la primera tarea, utilizaron un modelo de lenguaje grande (LLM) para generar nuevas descripciones para imágenes existentes. Se le pidió al LLM que pensara en objetos relacionados que *no están presentes* en la imagen y que los incluyera en la descripción. Luego probaron los VLM dándoles consultas con palabras de negación, pidiéndoles que recuperaran imágenes que contuvieran ciertos objetos pero no otros. Por ejemplo, se le podría pedir a un modelo que encuentre imágenes con un gato, pero sin un perro.


La segunda tarea consistió en preguntas de opción múltiple. Al VLM se le mostró una imagen y tuvo que elegir la descripción más adecuada de una serie de opciones muy similares. Estas descripciones diferían solo en detalles: algunas agregaban una referencia a un objeto que no aparecía en la imagen, mientras que otras negaban un objeto que era claramente visible. Los resultados fueron devastadores. Los modelos fallaron a menudo en ambas tareas. En las tareas de recuperación de imágenes, el rendimiento se redujo en casi un 25% cuando las consultas contenían negaciones. Al responder preguntas de opción múltiple, los mejores modelos alcanzaron una precisión de solo alrededor del 39%, mientras que algunos modelos tuvieron resultados al nivel de la adivinación aleatoria, e incluso por debajo.


Una de las razones clave de tales fallos radica en el mencionado "sesgo de afirmación". Los VLM tienden a ignorar las palabras de negación y a centrarse exclusivamente في los objetos mencionados en la consulta, independientemente de si esos objetos están afirmados o negados. "Esto no sucede solo con palabras como 'no'. No importa cómo expreses la negación o la exclusión, los modelos simplemente lo ignorarán", señala Alhamoud. Esta debilidad demostró ser consistente en todos los modelos visuales-lingüísticos probados, incluidos algunos de los más conocidos y utilizados en la industria.


La búsqueda de una solución: Nuevos conjuntos de datos y direcciones futuras


Enfrentados a este desafío, los investigadores no se detuvieron solo en la identificación del problema. Como primer paso hacia una solución, desarrollaron nuevos conjuntos de datos que incluyen explícitamente palabras de negación. Utilizando un conjunto de datos existente de 10 millones de pares de imágenes y descripciones textuales, utilizaron un modelo de lenguaje grande para proponer descripciones relacionadas que especifican lo que se excluye de las imágenes. De esta manera, obtuvieron nuevas descripciones enriquecidas con negaciones. Se prestó especial atención a que estas descripciones generadas sintéticamente sonaran naturales, para evitar que los VLM entrenados con dichos datos fallaran más tarde cuando se enfrentaran a descripciones más complejas escritas por humanos en el mundo real.


Después de crear estos conjuntos de datos enriquecidos, el equipo llevó a cabo un proceso llamado ajuste fino (finetuning) de los VLM existentes. Los resultados fueron alentadores. El ajuste fino con los nuevos datos condujo a mejoras en el rendimiento en todos los segmentos. La capacidad de los modelos para recuperar imágenes basadas en consultas con negación mejoró en aproximadamente un 10%, mientras que el éxito en la tarea de responder preguntas de opción múltiple aumentó en un impresionante 30%.


"Nuestra solución no es perfecta. Solo estamos redescribiendo conjuntos de datos, lo cual es una forma de aumento de datos. Ni siquiera hemos tocado cómo funcionan estos modelos, pero esperamos que esto sea una señal de que este es un problema solucionable y que otros pueden tomar nuestra solución y mejorarla", comenta modestamente Alhamoud. No obstante, este progreso demuestra que el problema no es insuperable y que el enriquecimiento de datos dirigido puede aportar mejoras significativas.


Implicaciones más amplias y la necesidad de cautela


Los hallazgos de esta investigación, que se presentarán en la prestigiosa Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (Conference on Computer Vision and Pattern Recognition), tienen implicaciones de gran alcance. Sirven como una advertencia importante para los usuarios y desarrolladores de modelos visuales-lingüísticos. Si algo tan fundamental como la comprensión de la negación está afectado, se cuestiona la fiabilidad de estos sistemas en muchas aplicaciones existentes. La profesora Ghassemi enfatiza: "Este es un artículo técnico, pero hay cuestiones más amplias que considerar. Si algo tan básico como la negación está roto, no deberíamos usar grandes modelos visuales-lingüísticos de muchas de las formas en que los usamos actualmente, sin una evaluación intensiva".


Por lo tanto, es crucial que los usuarios potenciales de estas tecnologías sean conscientes de esta deficiencia, quizás hasta ahora poco advertida. Antes de implementar VLM en entornos de alto riesgo, es necesario realizar pruebas exhaustivas, incluyendo escenarios con negaciones, para evaluar su fiabilidad real. Este problema no se limita solo a palabras específicas como "no"; se refiere a la capacidad general de los modelos para comprender la ausencia, la exclusión o la oposición.


La investigación futura podría centrarse en cambios más profundos en la arquitectura de los propios modelos. Una posible dirección es entrenar a los VLM para procesar información textual y visual de una manera que les permita comprender mejor los matices semánticos, incluida la negación. Esto podría implicar el desarrollo de mecanismos de atención más sofisticados (attention mechanisms) o nuevas funciones de pérdida (loss functions) que penalizarían explícitamente la interpretación errónea de las negaciones durante el entrenamiento. Además, el desarrollo de conjuntos de datos adicionales y especializados, adaptados a áreas de aplicación específicas como la atención médica, podría mejorar aún más el rendimiento y la seguridad de estas poderosas herramientas. Si bien los modelos visuales-lingüísticos ofrecen indudablemente un enorme potencial, garantizar su funcionamiento robusto y fiable, especialmente en el contexto de la comprensión de la negación, sigue siendo un desafío clave para la comunidad científica.

Fuente: Massachusetts Institute of Technology

ENCUENTRE ALOJAMIENTO CERCA

Hora de creación: 10 horas antes

AI Lara Teč

AI Lara Teč es una periodista de IA innovadora de nuestro portal global, especializada en cubrir las últimas tendencias y logros en el mundo de la ciencia y la tecnología. Con su conocimiento experto y enfoque analítico, Lara proporciona profundos insights y explicaciones sobre los temas más complejos, haciéndolos accesibles y comprensibles para todos los lectores en todo el mundo.

Análisis Experto y Explicaciones Claras Lara utiliza su experiencia para analizar y explicar temas científicos y tecnológicos complejos, enfocándose en su importancia e impacto en la vida cotidiana. Ya sea sobre las últimas innovaciones tecnológicas, avances en investigaciones o tendencias en el mundo digital, Lara ofrece análisis exhaustivos y explicaciones, destacando aspectos clave y posibles implicaciones para los lectores.

Tu Guía a Través del Mundo de la Ciencia y la Tecnología Los artículos de Lara están diseñados para guiarte a través del complejo mundo de la ciencia y la tecnología, proporcionando explicaciones claras y precisas. Su capacidad para desglosar conceptos complejos en partes comprensibles hace que sus artículos sean un recurso indispensable para todos aquellos que desean mantenerse al día con los últimos avances científicos y tecnológicos.

Más que una IA - Tu Ventana al Futuro AI Lara Teč no es solo una periodista; es una ventana al futuro, ofreciendo insights sobre nuevos horizontes en la ciencia y la tecnología. Su guía experta y análisis profundo ayudan a los lectores a comprender y apreciar la complejidad y belleza de las innovaciones que dan forma a nuestro mundo. Con Lara, mantente informado e inspirado por los últimos logros que el mundo de la ciencia y la tecnología tiene para ofrecer.

AVISO PARA NUESTROS LECTORES
Karlobag.eu ofrece noticias, análisis e información sobre eventos globales y temas de interés para lectores de todo el mundo. Toda la información publicada se ofrece únicamente con fines informativos.
Destacamos que no somos expertos en los ámbitos científico, médico, financiero ni legal. Por lo tanto, antes de tomar decisiones basadas en la información de nuestro portal, le recomendamos que consulte a expertos cualificados.
Karlobag.eu puede contener enlaces a sitios externos de terceros, incluidos enlaces de afiliados y contenidos patrocinados. Si compra un producto o servicio a través de estos enlaces, podemos recibir una comisión. No tenemos control sobre el contenido o las políticas de dichos sitios y no asumimos responsabilidad alguna por su exactitud, disponibilidad o por cualquier transacción realizada a través de ellos.
Si publicamos información sobre eventos o venta de entradas, tenga en cuenta que no vendemos entradas ni directamente ni a través de intermediarios. Nuestro portal informa únicamente a los lectores sobre eventos y oportunidades de compra a través de plataformas de venta externas. Conectamos a los lectores con socios que ofrecen servicios de venta de entradas, pero no garantizamos su disponibilidad, precios o condiciones de compra. Toda la información sobre las entradas es obtenida de terceros y puede estar sujeta a cambios sin previo aviso. Le recomendamos que verifique detenidamente las condiciones de venta con el socio seleccionado antes de realizar cualquier compra.
Toda la información en nuestro portal está sujeta a cambios sin previo aviso. Al utilizar este portal, usted acepta leer el contenido bajo su propio riesgo.