Postavke privatnosti

Se revela un defecto oculto en los modelos de lenguaje de gran tamaño: los investigadores del MIT explican por qué la IA ignora los datos clave

Los investigadores del MIT han descubierto por qué los modelos de lenguaje grandes como GPT-4 muestran sesgo posicional, descuidando la información clave en medio de los documentos. Este fenómeno, conocido como "perderse en el medio", es una consecuencia directa de la arquitectura del modelo y puede comprometer la fiabilidad de los sistemas de IA en medicina y derecho.

Se revela un defecto oculto en los modelos de lenguaje de gran tamaño: los investigadores del MIT explican por qué la IA ignora los datos clave
Photo by: Domagoj Skledar/ arhiva (vlastita)

Los grandes modelos lingüísticos (LLM), como sistemas avanzados como GPT-4, Claude y Llama, se están convirtiendo en una herramienta indispensable en un número creciente de profesiones, desde el derecho y la medicina hasta la programación y la investigación científica. Su capacidad para procesar y generar texto similar al humano ha abierto la puerta a nuevos niveles de productividad. Sin embargo, bajo la superficie de esta revolución tecnológica se esconde un defecto sutil pero significativo que puede llevar a resultados poco fiables e inexactos: el sesgo de posición. Investigaciones recientes han revelado que estos complejos sistemas tienden a dar una importancia desproporcionada a la información que se encuentra al principio o al final de un documento, mientras que al mismo tiempo ignoran datos clave situados en el medio.


Este problema significa que, por ejemplo, un abogado que utiliza un asistente virtual impulsado por inteligencia artificial para encontrar una cláusula específica en un contrato de treinta páginas tiene una probabilidad de éxito considerablemente mayor si dicha cláusula se encuentra en la primera o en la última página. La información en la parte central del documento, independientemente de su relevancia, a menudo permanece "invisible" para el modelo.


Descubriendo la "Pérdida en el Medio": Un Problema que Afecta Incluso a los Sistemas Más Avanzados


El fenómeno conocido como "pérdida en el medio" (ing. lost-in-the-middle) se manifiesta a través de un patrón específico de precisión en forma de "U". Cuando se prueba la capacidad del modelo para encontrar una respuesta correcta dentro de un texto largo, el rendimiento es mejor si la información está al principio. A medida que la información objetivo se desplaza hacia el centro, la precisión disminuye drásticamente, alcanzando su punto más bajo en el centro mismo del documento, para luego mejorar ligeramente hacia el final. Esta deficiencia no es solo una curiosidad técnica, sino que representa un riesgo grave en aplicaciones donde cada información es de vital importancia.


Imagine un sistema de IA médico que analiza un extenso historial clínico de un paciente. Si un síntoma clave o el resultado de una prueba de laboratorio se menciona en medio de la documentación, el modelo podría pasarlo por alto, lo que podría conducir a un diagnóstico erróneo. Del mismo modo, un programador que confía en un asistente de IA para analizar código complejo podría obtener una imagen incompleta si el modelo ignora funciones críticas ubicadas en la parte central del paquete de software. Comprender y resolver este problema es crucial para generar confianza en los sistemas de IA y su aplicación segura.


Investigadores del MIT Han Trazado la Raíz del Problema


Un equipo de científicos del prestigioso Instituto de Tecnología de Massachusetts (MIT), ubicado en la ciudad de Cambridge, ha logrado descubrir el mecanismo fundamental que causa este fenómeno. En un nuevo estudio, que se presentará en la Conferencia Internacional sobre Aprendizaje Automático, los investigadores desarrollaron un marco teórico que les permitió mirar dentro de la "caja negra" de los grandes modelos lingüísticos.


Bajo el liderazgo de Xinyi Wu, estudiante del Instituto de Datos, Sistemas y Sociedad (IDSS) del MIT, y en colaboración con el investigador postdoctoral Yifei Wang y los experimentados profesores Stefanie Jegelka y Ali Jadbabaie, el equipo determinó que el sesgo de posición no es un error casual, sino una consecuencia directa de ciertas decisiones de diseño en la propia arquitectura del modelo. "Estos modelos son cajas negras, por lo que como usuario, probablemente no sepa que el sesgo de posición puede hacer que su modelo sea inconsistente", señala Wu. "Al comprender mejor el mecanismo subyacente de estos modelos, podemos mejorarlos abordando estas limitaciones".


Anatomía del Transformador: Cómo la Arquitectura Crea el Sesgo


El corazón de los modelos lingüísticos modernos es una arquitectura de red neuronal conocida como transformador. Los transformadores procesan el texto dividiéndolo primero en partes más pequeñas, los llamados "tokens", y luego aprenden las relaciones entre estos tokens para comprender el contexto y predecir las siguientes palabras. La innovación clave que les permite hacer esto es el mecanismo de atención (ing. attention mechanism), que permite que cada token "preste atención" selectivamente a otros tokens relevantes en el texto.


Sin embargo, permitir que cada token en un documento de 30 páginas preste atención a cada otro token sería computacionalmente prohibitivo e inviable. Por eso, los ingenieros utilizan técnicas de "enmascaramiento de atención" (ing. attention masking) que limitan a qué tokens puede mirar un token en particular. La investigación del MIT demostró que precisamente una de estas técnicas, conocida como máscara causal (ing. causal mask), es una de las principales culpables del sesgo. La máscara causal permite a los tokens prestar atención solo a aquellos tokens que aparecieron antes que ellos. Este método, aunque útil para tareas como la generación de texto, crea inherentemente un sesgo hacia el comienzo de la secuencia de entrada. Cuanto más profundo es el modelo, es decir, cuantas más capas del mecanismo de atención tiene, este sesgo inicial se amplifica aún más porque la información del principio se utiliza cada vez con más frecuencia en el proceso de razonamiento del modelo.


El Papel de los Datos y las Oportunidades de Corrección


La arquitectura del modelo no es la única fuente del problema. Los investigadores confirmaron que los datos de entrenamiento también juegan un papel importante. Si los datos con los que se entrenó el modelo están sesgados de cierta manera, el modelo inevitablemente aprenderá y reproducirá ese sesgo. Afortunadamente, el marco teórico desarrollado por el equipo del MIT no solo diagnostica el problema, sino que también ofrece posibles soluciones.


Una de las estrategias propuestas es el uso de codificaciones posicionales (ing. positional encodings), una técnica que proporciona al modelo información explícita sobre la ubicación de cada palabra dentro de la secuencia. Al vincular más fuertemente las palabras con sus vecinos inmediatos, esta técnica puede ayudar a redirigir la "atención" del modelo a partes más relevantes del texto y así mitigar el sesgo. Sin embargo, advierten los investigadores, el efecto de este método puede debilitarse en modelos con una gran cantidad de capas.


Otras posibilidades incluyen el uso de diferentes técnicas de enmascaramiento que no favorezcan el comienzo de la secuencia, la eliminación estratégica de capas sobrantes del mecanismo de atención o el ajuste fino (ing. fine-tuning) dirigido del modelo con datos que se sabe que son más equilibrados. "Si sabe que sus datos están sesgados, debería ajustar su modelo adaptando las opciones de diseño", aconseja Wu.


Consecuencias Prácticas y el Futuro de una Inteligencia Artificial Más Fiable


Los resultados de esta investigación tienen consecuencias de gran alcance. Resolver el problema del sesgo de posición podría conducir a sistemas de IA considerablemente más fiables. Los chatbots podrían mantener conversaciones más largas y significativas sin perder el contexto. Los sistemas médicos podrían analizar los datos de los pacientes de manera más justa, mientras que los asistentes de codificación podrían revisar programas completos con más detalle, prestando la misma atención a todas las partes del código.


Amin Saberi, profesor y director del Centro para el Diseño de Mercados Impulsados por Computadora en la Universidad de Stanford, que no participó en el trabajo, elogió la investigación: "Estos investigadores ofrecen una rara visión teórica del mecanismo de atención en el corazón del modelo transformador. Proporcionan un análisis convincente que aclara rarezas de larga data en el comportamiento de los transformadores". Sus palabras confirman la importancia de este paso hacia la desmitificación de las tecnologías de IA.


En el futuro, el equipo de investigación planea investigar más a fondo los efectos de la codificación posicional y estudiar cómo el sesgo de posición podría incluso explotarse estratégicamente en ciertas aplicaciones. Como señala el profesor Jadbabaie, "Si desea utilizar un modelo en aplicaciones de alto riesgo, necesita saber cuándo funcionará, cuándo no y por qué". Esta investigación representa un paso crucial hacia ese objetivo, abriendo el camino hacia la creación de sistemas de inteligencia artificial más precisos, fiables y, en última instancia, más útiles.

Fuente: Instituto de Tecnología de Massachusetts

Encuentra alojamiento cerca

Hora de creación: 19 junio, 2025

Redacción de ciencia y tecnología

Nuestra Redacción de Ciencia y Tecnología nació de una pasión de muchos años por investigar, interpretar y acercar temas complejos a los lectores comunes. En ella escriben empleados y voluntarios que llevan décadas siguiendo el desarrollo de la ciencia y la innovación tecnológica, desde descubrimientos de laboratorio hasta soluciones que transforman la vida cotidiana. Aunque escribimos en plural, detrás de cada texto hay una persona real con amplia experiencia editorial y periodística, y un profundo respeto por los hechos y la información verificable.

Nuestra redacción fundamenta su trabajo en la convicción de que la ciencia es más fuerte cuando es accesible para todos. Por eso buscamos claridad, precisión y comprensión, sin simplificaciones que puedan perjudicar la calidad del contenido. A menudo pasamos horas estudiando investigaciones, documentos técnicos y fuentes especializadas para presentar cada tema de una forma que interese al lector sin sobrecargarlo. En cada artículo intentamos conectar el conocimiento científico con la vida real, mostrando cómo las ideas surgidas de centros de investigación, universidades y laboratorios tecnológicos moldean el mundo que nos rodea.

Nuestra larga experiencia periodística nos permite reconocer lo que realmente importa al lector, ya se trate de avances en inteligencia artificial, descubrimientos médicos, soluciones energéticas, misiones espaciales o dispositivos que entran en nuestra vida cotidiana antes de que podamos imaginar sus posibilidades. Nuestra mirada sobre la tecnología no es solo técnica; también nos interesan las historias humanas detrás de los grandes avances: investigadores que trabajan durante años para completar proyectos, ingenieros que convierten ideas en sistemas funcionales y visionarios que amplían los límites de lo posible.

En nuestro trabajo también nos guía un fuerte sentido de responsabilidad. Queremos que el lector pueda confiar en la información que ofrecemos, por lo que verificamos fuentes, comparamos datos y no publicamos con prisa cuando algo no está completamente claro. La confianza se construye más lentamente de lo que se escribe una noticia, pero creemos que solo este tipo de periodismo tiene un valor duradero.

Para nosotros, la tecnología es más que dispositivos y la ciencia más que teoría. Son campos que impulsan el progreso, moldean la sociedad y ofrecen nuevas oportunidades a quienes desean comprender cómo funciona el mundo hoy y hacia dónde se dirige mañana. Por eso abordamos cada tema con seriedad, pero también con curiosidad, porque la curiosidad abre la puerta a los mejores textos.

Nuestra misión es acercar a los lectores a un mundo que cambia más rápido que nunca, con la convicción de que el periodismo de calidad puede ser un puente entre expertos, innovadores y todos aquellos que desean entender lo que ocurre detrás de los titulares. En esto vemos nuestra verdadera tarea: convertir lo complejo en comprensible, lo lejano en cercano y lo desconocido en inspirador.

AVISO PARA NUESTROS LECTORES
Karlobag.eu ofrece noticias, análisis e información sobre eventos globales y temas de interés para lectores de todo el mundo. Toda la información publicada se ofrece únicamente con fines informativos.
Destacamos que no somos expertos en los ámbitos científico, médico, financiero ni legal. Por lo tanto, antes de tomar decisiones basadas en la información de nuestro portal, le recomendamos que consulte a expertos cualificados.
Karlobag.eu puede contener enlaces a sitios externos de terceros, incluidos enlaces de afiliados y contenidos patrocinados. Si compra un producto o servicio a través de estos enlaces, podemos recibir una comisión. No tenemos control sobre el contenido o las políticas de dichos sitios y no asumimos responsabilidad alguna por su exactitud, disponibilidad o por cualquier transacción realizada a través de ellos.
Si publicamos información sobre eventos o venta de entradas, tenga en cuenta que no vendemos entradas ni directamente ni a través de intermediarios. Nuestro portal informa únicamente a los lectores sobre eventos y oportunidades de compra a través de plataformas de venta externas. Conectamos a los lectores con socios que ofrecen servicios de venta de entradas, pero no garantizamos su disponibilidad, precios o condiciones de compra. Toda la información sobre las entradas es obtenida de terceros y puede estar sujeta a cambios sin previo aviso. Le recomendamos que verifique detenidamente las condiciones de venta con el socio seleccionado antes de realizar cualquier compra.
Toda la información en nuestro portal está sujeta a cambios sin previo aviso. Al utilizar este portal, usted acepta leer el contenido bajo su propio riesgo.