Postavke privatnosti

Punto ciego fatal de la IA: los modelos de lenguaje visual no entienden el "no", según un estudio

Los modelos de lenguaje visual (VLM) revolucionan la tecnología, pero un estudio del MIT revela su defecto crítico: un malentendido fundamental de la negación. Esta debilidad puede conducir a errores catastróficos en medicina y otras aplicaciones de IA de alto riesgo, ya que los modelos ignoran palabras como "no" o "no", cuestionando su confiabilidad.

Punto ciego fatal de la IA: los modelos de lenguaje visual no entienden el "no", según un estudio
Photo by: Domagoj Skledar/ arhiva (vlastita)

El mundo de la inteligencia artificial (IA) avanza constantemente, trayendo consigo cambios revolucionarios en diversos sectores, desde la medicina hasta la manufactura. Entre los logros más prometedores se encuentran los llamados modelos visuales-lingüísticos (VLM), sistemas sofisticados entrenados para comprender simultáneamente imágenes y texto. Su capacidad para conectar información visual con descripciones lingüísticas abre la puerta a numerosas aplicaciones, incluyendo herramientas de diagnóstico avanzadas y sistemas automatizados de control de calidad. Sin embargo, investigaciones recientes, incluida una realizada en el Massachusetts Institute of Technology (MIT), arrojan luz sobre una debilidad crítica de estos modelos: su incapacidad para procesar correctamente las negaciones. Palabras como "no" o "sin" pueden llevar a interpretaciones completamente erróneas, lo que en áreas sensibles de aplicación puede tener consecuencias catastróficas.


Fallos inesperados de la inteligencia artificial: El problema con la negación


Imagine un escenario en una consulta de radiología. Un médico analiza la radiografía de tórax de un paciente. Observa una inflamación del tejido, pero nota que el corazón no está agrandado. En un esfuerzo por acelerar el diagnóstico y encontrar casos similares registrados, el radiólogo podría recurrir a un modelo visual-lingüístico. Si el sistema de inteligencia artificial malinterpreta la consulta y busca casos de pacientes que tienen tanto tejido inflamado como un corazón agrandado, el diagnóstico inicial podría ser drásticamente diferente. Específicamente, la combinación de tejido inflamado y un corazón agrandado sugiere fuertemente problemas cardíacos, mientras que la ausencia de un corazón agrandado, a pesar del tejido inflamado, abre la posibilidad de una variedad de otras causas potenciales. Tal error de interpretación, causado por una incomprensión de la negación, puede desviar el proceso diagnóstico en una dirección completamente equivocada.


Investigadores del MIT, en colaboración con colegas de otras instituciones, han investigado sistemáticamente este problema. Sus hallazgos indican que los modelos visuales-lingüísticos muestran una marcada propensión a cometer errores en situaciones del mundo real cuando se enfrentan a palabras de negación. Kumail Alhamoud, estudiante de posgrado en el MIT y autor principal del estudio, enfatiza: "Estas palabras de negación pueden tener un impacto muy significativo, y si usamos estos modelos a ciegas, podemos enfrentar consecuencias catastróficas". Esta advertencia no se limita solo al diagnóstico médico; se extiende a todas las aplicaciones de alto riesgo donde las decisiones se basan en información generada por estos sistemas de IA, desde vehículos autónomos hasta el control de calidad en plantas industriales.


¿Cómo funcionan los modelos visuales-lingüísticos y dónde se produce el 'cortocircuito'?


Los modelos visuales-lingüísticos (VLM) son sistemas sofisticados de aprendizaje automático que se entrenan con enormes conjuntos de datos que contienen imágenes y sus correspondientes descripciones textuales. A través del proceso de entrenamiento, los modelos aprenden a codificar tanto imágenes como texto en representaciones numéricas, conocidas como incrustaciones vectoriales. El objetivo es que el modelo aprenda a generar vectores similares para una imagen y su descripción correspondiente. Los VLM suelen utilizar dos codificadores separados: uno para procesar imágenes y otro para procesar texto. Estos codificadores se optimizan simultáneamente para que sus vectores de salida sean lo más similares posible para pares de imagen-texto semánticamente relacionados.


El problema con la negación surge de la propia naturaleza de los datos con los que se entrenan estos modelos. "Las descripciones de las imágenes expresan principalmente lo que hay en las imágenes: son etiquetas positivas. Y ese es realmente todo el problema. Nadie mira una imagen de un perro saltando una valla y la describe como 'un perro saltando una valla, sin helicóptero'", explica Marzyeh Ghassemi, profesora asociada en el MIT y autora principal de la investigación. Dado que los conjuntos de datos de entrenamiento contienen predominantemente descripciones afirmativas, los VLM simplemente no tienen suficientes oportunidades para aprender a reconocer e interpretar correctamente la negación. La falta de ejemplos donde se indique explícitamente lo que *no* está presente en la imagen lleva a que los modelos desarrollen una especie de "sesgo de afirmación".


Probando los límites de la comprensión: Cómo los modelos fallaron la prueba de negación


Para investigar más a fondo este problema, los científicos diseñaron dos tareas de referencia específicas (benchmark tasks) destinadas a probar la capacidad de los VLM para comprender la negación. En la primera tarea, utilizaron un modelo de lenguaje grande (LLM) para generar nuevas descripciones para imágenes existentes. Se le pidió al LLM que pensara en objetos relacionados que *no están presentes* en la imagen y que los incluyera en la descripción. Luego probaron los VLM dándoles consultas con palabras de negación, pidiéndoles que recuperaran imágenes que contuvieran ciertos objetos pero no otros. Por ejemplo, se le podría pedir a un modelo que encuentre imágenes con un gato, pero sin un perro.


La segunda tarea consistió en preguntas de opción múltiple. Al VLM se le mostró una imagen y tuvo que elegir la descripción más adecuada de una serie de opciones muy similares. Estas descripciones diferían solo en detalles: algunas agregaban una referencia a un objeto que no aparecía en la imagen, mientras que otras negaban un objeto que era claramente visible. Los resultados fueron devastadores. Los modelos fallaron a menudo en ambas tareas. En las tareas de recuperación de imágenes, el rendimiento se redujo en casi un 25% cuando las consultas contenían negaciones. Al responder preguntas de opción múltiple, los mejores modelos alcanzaron una precisión de solo alrededor del 39%, mientras que algunos modelos tuvieron resultados al nivel de la adivinación aleatoria, e incluso por debajo.


Una de las razones clave de tales fallos radica en el mencionado "sesgo de afirmación". Los VLM tienden a ignorar las palabras de negación y a centrarse exclusivamente في los objetos mencionados en la consulta, independientemente de si esos objetos están afirmados o negados. "Esto no sucede solo con palabras como 'no'. No importa cómo expreses la negación o la exclusión, los modelos simplemente lo ignorarán", señala Alhamoud. Esta debilidad demostró ser consistente en todos los modelos visuales-lingüísticos probados, incluidos algunos de los más conocidos y utilizados en la industria.


La búsqueda de una solución: Nuevos conjuntos de datos y direcciones futuras


Enfrentados a este desafío, los investigadores no se detuvieron solo en la identificación del problema. Como primer paso hacia una solución, desarrollaron nuevos conjuntos de datos que incluyen explícitamente palabras de negación. Utilizando un conjunto de datos existente de 10 millones de pares de imágenes y descripciones textuales, utilizaron un modelo de lenguaje grande para proponer descripciones relacionadas que especifican lo que se excluye de las imágenes. De esta manera, obtuvieron nuevas descripciones enriquecidas con negaciones. Se prestó especial atención a que estas descripciones generadas sintéticamente sonaran naturales, para evitar que los VLM entrenados con dichos datos fallaran más tarde cuando se enfrentaran a descripciones más complejas escritas por humanos en el mundo real.


Después de crear estos conjuntos de datos enriquecidos, el equipo llevó a cabo un proceso llamado ajuste fino (finetuning) de los VLM existentes. Los resultados fueron alentadores. El ajuste fino con los nuevos datos condujo a mejoras en el rendimiento en todos los segmentos. La capacidad de los modelos para recuperar imágenes basadas en consultas con negación mejoró en aproximadamente un 10%, mientras que el éxito en la tarea de responder preguntas de opción múltiple aumentó en un impresionante 30%.


"Nuestra solución no es perfecta. Solo estamos redescribiendo conjuntos de datos, lo cual es una forma de aumento de datos. Ni siquiera hemos tocado cómo funcionan estos modelos, pero esperamos que esto sea una señal de que este es un problema solucionable y que otros pueden tomar nuestra solución y mejorarla", comenta modestamente Alhamoud. No obstante, este progreso demuestra que el problema no es insuperable y que el enriquecimiento de datos dirigido puede aportar mejoras significativas.


Implicaciones más amplias y la necesidad de cautela


Los hallazgos de esta investigación, que se presentarán en la prestigiosa Conferencia sobre Visión por Computadora y Reconocimiento de Patrones (Conference on Computer Vision and Pattern Recognition), tienen implicaciones de gran alcance. Sirven como una advertencia importante para los usuarios y desarrolladores de modelos visuales-lingüísticos. Si algo tan fundamental como la comprensión de la negación está afectado, se cuestiona la fiabilidad de estos sistemas en muchas aplicaciones existentes. La profesora Ghassemi enfatiza: "Este es un artículo técnico, pero hay cuestiones más amplias que considerar. Si algo tan básico como la negación está roto, no deberíamos usar grandes modelos visuales-lingüísticos de muchas de las formas en que los usamos actualmente, sin una evaluación intensiva".


Por lo tanto, es crucial que los usuarios potenciales de estas tecnologías sean conscientes de esta deficiencia, quizás hasta ahora poco advertida. Antes de implementar VLM en entornos de alto riesgo, es necesario realizar pruebas exhaustivas, incluyendo escenarios con negaciones, para evaluar su fiabilidad real. Este problema no se limita solo a palabras específicas como "no"; se refiere a la capacidad general de los modelos para comprender la ausencia, la exclusión o la oposición.


La investigación futura podría centrarse en cambios más profundos en la arquitectura de los propios modelos. Una posible dirección es entrenar a los VLM para procesar información textual y visual de una manera que les permita comprender mejor los matices semánticos, incluida la negación. Esto podría implicar el desarrollo de mecanismos de atención más sofisticados (attention mechanisms) o nuevas funciones de pérdida (loss functions) que penalizarían explícitamente la interpretación errónea de las negaciones durante el entrenamiento. Además, el desarrollo de conjuntos de datos adicionales y especializados, adaptados a áreas de aplicación específicas como la atención médica, podría mejorar aún más el rendimiento y la seguridad de estas poderosas herramientas. Si bien los modelos visuales-lingüísticos ofrecen indudablemente un enorme potencial, garantizar su funcionamiento robusto y fiable, especialmente en el contexto de la comprensión de la negación, sigue siendo un desafío clave para la comunidad científica.

Fuente: Massachusetts Institute of Technology

Encuentra alojamiento cerca

Hora de creación: 15 mayo, 2025

Redacción de ciencia y tecnología

Nuestra Redacción de Ciencia y Tecnología nació de una pasión de muchos años por investigar, interpretar y acercar temas complejos a los lectores comunes. En ella escriben empleados y voluntarios que llevan décadas siguiendo el desarrollo de la ciencia y la innovación tecnológica, desde descubrimientos de laboratorio hasta soluciones que transforman la vida cotidiana. Aunque escribimos en plural, detrás de cada texto hay una persona real con amplia experiencia editorial y periodística, y un profundo respeto por los hechos y la información verificable.

Nuestra redacción fundamenta su trabajo en la convicción de que la ciencia es más fuerte cuando es accesible para todos. Por eso buscamos claridad, precisión y comprensión, sin simplificaciones que puedan perjudicar la calidad del contenido. A menudo pasamos horas estudiando investigaciones, documentos técnicos y fuentes especializadas para presentar cada tema de una forma que interese al lector sin sobrecargarlo. En cada artículo intentamos conectar el conocimiento científico con la vida real, mostrando cómo las ideas surgidas de centros de investigación, universidades y laboratorios tecnológicos moldean el mundo que nos rodea.

Nuestra larga experiencia periodística nos permite reconocer lo que realmente importa al lector, ya se trate de avances en inteligencia artificial, descubrimientos médicos, soluciones energéticas, misiones espaciales o dispositivos que entran en nuestra vida cotidiana antes de que podamos imaginar sus posibilidades. Nuestra mirada sobre la tecnología no es solo técnica; también nos interesan las historias humanas detrás de los grandes avances: investigadores que trabajan durante años para completar proyectos, ingenieros que convierten ideas en sistemas funcionales y visionarios que amplían los límites de lo posible.

En nuestro trabajo también nos guía un fuerte sentido de responsabilidad. Queremos que el lector pueda confiar en la información que ofrecemos, por lo que verificamos fuentes, comparamos datos y no publicamos con prisa cuando algo no está completamente claro. La confianza se construye más lentamente de lo que se escribe una noticia, pero creemos que solo este tipo de periodismo tiene un valor duradero.

Para nosotros, la tecnología es más que dispositivos y la ciencia más que teoría. Son campos que impulsan el progreso, moldean la sociedad y ofrecen nuevas oportunidades a quienes desean comprender cómo funciona el mundo hoy y hacia dónde se dirige mañana. Por eso abordamos cada tema con seriedad, pero también con curiosidad, porque la curiosidad abre la puerta a los mejores textos.

Nuestra misión es acercar a los lectores a un mundo que cambia más rápido que nunca, con la convicción de que el periodismo de calidad puede ser un puente entre expertos, innovadores y todos aquellos que desean entender lo que ocurre detrás de los titulares. En esto vemos nuestra verdadera tarea: convertir lo complejo en comprensible, lo lejano en cercano y lo desconocido en inspirador.

AVISO PARA NUESTROS LECTORES
Karlobag.eu ofrece noticias, análisis e información sobre eventos globales y temas de interés para lectores de todo el mundo. Toda la información publicada se ofrece únicamente con fines informativos.
Destacamos que no somos expertos en los ámbitos científico, médico, financiero ni legal. Por lo tanto, antes de tomar decisiones basadas en la información de nuestro portal, le recomendamos que consulte a expertos cualificados.
Karlobag.eu puede contener enlaces a sitios externos de terceros, incluidos enlaces de afiliados y contenidos patrocinados. Si compra un producto o servicio a través de estos enlaces, podemos recibir una comisión. No tenemos control sobre el contenido o las políticas de dichos sitios y no asumimos responsabilidad alguna por su exactitud, disponibilidad o por cualquier transacción realizada a través de ellos.
Si publicamos información sobre eventos o venta de entradas, tenga en cuenta que no vendemos entradas ni directamente ni a través de intermediarios. Nuestro portal informa únicamente a los lectores sobre eventos y oportunidades de compra a través de plataformas de venta externas. Conectamos a los lectores con socios que ofrecen servicios de venta de entradas, pero no garantizamos su disponibilidad, precios o condiciones de compra. Toda la información sobre las entradas es obtenida de terceros y puede estar sujeta a cambios sin previo aviso. Le recomendamos que verifique detenidamente las condiciones de venta con el socio seleccionado antes de realizar cualquier compra.
Toda la información en nuestro portal está sujeta a cambios sin previo aviso. Al utilizar este portal, usted acepta leer el contenido bajo su propio riesgo.