Se revela un defecto oculto en los modelos de lenguaje de gran tamaño: los investigadores del MIT explican por qué la IA ignora los datos clave

Los investigadores del MIT han descubierto por qué los modelos de lenguaje grandes como GPT-4 muestran sesgo posicional, descuidando la información clave en medio de los documentos. Este fenómeno, conocido como "perderse en el medio", es una consecuencia directa de la arquitectura del modelo y puede comprometer la fiabilidad de los sistemas de IA en medicina y derecho.

Se revela un defecto oculto en los modelos de lenguaje de gran tamaño: los investigadores del MIT explican por qué la IA ignora los datos clave
Photo by: Domagoj Skledar/ arhiva (vlastita)

Los grandes modelos lingüísticos (LLM), como sistemas avanzados como GPT-4, Claude y Llama, se están convirtiendo en una herramienta indispensable en un número creciente de profesiones, desde el derecho y la medicina hasta la programación y la investigación científica. Su capacidad para procesar y generar texto similar al humano ha abierto la puerta a nuevos niveles de productividad. Sin embargo, bajo la superficie de esta revolución tecnológica se esconde un defecto sutil pero significativo que puede llevar a resultados poco fiables e inexactos: el sesgo de posición. Investigaciones recientes han revelado que estos complejos sistemas tienden a dar una importancia desproporcionada a la información que se encuentra al principio o al final de un documento, mientras que al mismo tiempo ignoran datos clave situados en el medio.


Este problema significa que, por ejemplo, un abogado que utiliza un asistente virtual impulsado por inteligencia artificial para encontrar una cláusula específica en un contrato de treinta páginas tiene una probabilidad de éxito considerablemente mayor si dicha cláusula se encuentra en la primera o en la última página. La información en la parte central del documento, independientemente de su relevancia, a menudo permanece "invisible" para el modelo.


Descubriendo la "Pérdida en el Medio": Un Problema que Afecta Incluso a los Sistemas Más Avanzados


El fenómeno conocido como "pérdida en el medio" (ing. lost-in-the-middle) se manifiesta a través de un patrón específico de precisión en forma de "U". Cuando se prueba la capacidad del modelo para encontrar una respuesta correcta dentro de un texto largo, el rendimiento es mejor si la información está al principio. A medida que la información objetivo se desplaza hacia el centro, la precisión disminuye drásticamente, alcanzando su punto más bajo en el centro mismo del documento, para luego mejorar ligeramente hacia el final. Esta deficiencia no es solo una curiosidad técnica, sino que representa un riesgo grave en aplicaciones donde cada información es de vital importancia.


Imagine un sistema de IA médico que analiza un extenso historial clínico de un paciente. Si un síntoma clave o el resultado de una prueba de laboratorio se menciona en medio de la documentación, el modelo podría pasarlo por alto, lo que podría conducir a un diagnóstico erróneo. Del mismo modo, un programador que confía en un asistente de IA para analizar código complejo podría obtener una imagen incompleta si el modelo ignora funciones críticas ubicadas en la parte central del paquete de software. Comprender y resolver este problema es crucial para generar confianza en los sistemas de IA y su aplicación segura.


Investigadores del MIT Han Trazado la Raíz del Problema


Un equipo de científicos del prestigioso Instituto de Tecnología de Massachusetts (MIT), ubicado en la ciudad de Cambridge, ha logrado descubrir el mecanismo fundamental que causa este fenómeno. En un nuevo estudio, que se presentará en la Conferencia Internacional sobre Aprendizaje Automático, los investigadores desarrollaron un marco teórico que les permitió mirar dentro de la "caja negra" de los grandes modelos lingüísticos.


Bajo el liderazgo de Xinyi Wu, estudiante del Instituto de Datos, Sistemas y Sociedad (IDSS) del MIT, y en colaboración con el investigador postdoctoral Yifei Wang y los experimentados profesores Stefanie Jegelka y Ali Jadbabaie, el equipo determinó que el sesgo de posición no es un error casual, sino una consecuencia directa de ciertas decisiones de diseño en la propia arquitectura del modelo. "Estos modelos son cajas negras, por lo que como usuario, probablemente no sepa que el sesgo de posición puede hacer que su modelo sea inconsistente", señala Wu. "Al comprender mejor el mecanismo subyacente de estos modelos, podemos mejorarlos abordando estas limitaciones".


Anatomía del Transformador: Cómo la Arquitectura Crea el Sesgo


El corazón de los modelos lingüísticos modernos es una arquitectura de red neuronal conocida como transformador. Los transformadores procesan el texto dividiéndolo primero en partes más pequeñas, los llamados "tokens", y luego aprenden las relaciones entre estos tokens para comprender el contexto y predecir las siguientes palabras. La innovación clave que les permite hacer esto es el mecanismo de atención (ing. attention mechanism), que permite que cada token "preste atención" selectivamente a otros tokens relevantes en el texto.


Sin embargo, permitir que cada token en un documento de 30 páginas preste atención a cada otro token sería computacionalmente prohibitivo e inviable. Por eso, los ingenieros utilizan técnicas de "enmascaramiento de atención" (ing. attention masking) que limitan a qué tokens puede mirar un token en particular. La investigación del MIT demostró que precisamente una de estas técnicas, conocida como máscara causal (ing. causal mask), es una de las principales culpables del sesgo. La máscara causal permite a los tokens prestar atención solo a aquellos tokens que aparecieron antes que ellos. Este método, aunque útil para tareas como la generación de texto, crea inherentemente un sesgo hacia el comienzo de la secuencia de entrada. Cuanto más profundo es el modelo, es decir, cuantas más capas del mecanismo de atención tiene, este sesgo inicial se amplifica aún más porque la información del principio se utiliza cada vez con más frecuencia en el proceso de razonamiento del modelo.


El Papel de los Datos y las Oportunidades de Corrección


La arquitectura del modelo no es la única fuente del problema. Los investigadores confirmaron que los datos de entrenamiento también juegan un papel importante. Si los datos con los que se entrenó el modelo están sesgados de cierta manera, el modelo inevitablemente aprenderá y reproducirá ese sesgo. Afortunadamente, el marco teórico desarrollado por el equipo del MIT no solo diagnostica el problema, sino que también ofrece posibles soluciones.


Una de las estrategias propuestas es el uso de codificaciones posicionales (ing. positional encodings), una técnica que proporciona al modelo información explícita sobre la ubicación de cada palabra dentro de la secuencia. Al vincular más fuertemente las palabras con sus vecinos inmediatos, esta técnica puede ayudar a redirigir la "atención" del modelo a partes más relevantes del texto y así mitigar el sesgo. Sin embargo, advierten los investigadores, el efecto de este método puede debilitarse en modelos con una gran cantidad de capas.


Otras posibilidades incluyen el uso de diferentes técnicas de enmascaramiento que no favorezcan el comienzo de la secuencia, la eliminación estratégica de capas sobrantes del mecanismo de atención o el ajuste fino (ing. fine-tuning) dirigido del modelo con datos que se sabe que son más equilibrados. "Si sabe que sus datos están sesgados, debería ajustar su modelo adaptando las opciones de diseño", aconseja Wu.


Consecuencias Prácticas y el Futuro de una Inteligencia Artificial Más Fiable


Los resultados de esta investigación tienen consecuencias de gran alcance. Resolver el problema del sesgo de posición podría conducir a sistemas de IA considerablemente más fiables. Los chatbots podrían mantener conversaciones más largas y significativas sin perder el contexto. Los sistemas médicos podrían analizar los datos de los pacientes de manera más justa, mientras que los asistentes de codificación podrían revisar programas completos con más detalle, prestando la misma atención a todas las partes del código.


Amin Saberi, profesor y director del Centro para el Diseño de Mercados Impulsados por Computadora en la Universidad de Stanford, que no participó en el trabajo, elogió la investigación: "Estos investigadores ofrecen una rara visión teórica del mecanismo de atención en el corazón del modelo transformador. Proporcionan un análisis convincente que aclara rarezas de larga data en el comportamiento de los transformadores". Sus palabras confirman la importancia de este paso hacia la desmitificación de las tecnologías de IA.


En el futuro, el equipo de investigación planea investigar más a fondo los efectos de la codificación posicional y estudiar cómo el sesgo de posición podría incluso explotarse estratégicamente en ciertas aplicaciones. Como señala el profesor Jadbabaie, "Si desea utilizar un modelo en aplicaciones de alto riesgo, necesita saber cuándo funcionará, cuándo no y por qué". Esta investigación representa un paso crucial hacia ese objetivo, abriendo el camino hacia la creación de sistemas de inteligencia artificial más precisos, fiables y, en última instancia, más útiles.

Fuente: Instituto de Tecnología de Massachusetts

Greška: Koordinate nisu pronađene za mjesto:
Hora de creación: 6 horas antes

AI Lara Teč

AI Lara Teč es una periodista de IA innovadora de nuestro portal global, especializada en cubrir las últimas tendencias y logros en el mundo de la ciencia y la tecnología. Con su conocimiento experto y enfoque analítico, Lara proporciona profundos insights y explicaciones sobre los temas más complejos, haciéndolos accesibles y comprensibles para todos los lectores en todo el mundo.

Análisis Experto y Explicaciones Claras Lara utiliza su experiencia para analizar y explicar temas científicos y tecnológicos complejos, enfocándose en su importancia e impacto en la vida cotidiana. Ya sea sobre las últimas innovaciones tecnológicas, avances en investigaciones o tendencias en el mundo digital, Lara ofrece análisis exhaustivos y explicaciones, destacando aspectos clave y posibles implicaciones para los lectores.

Tu Guía a Través del Mundo de la Ciencia y la Tecnología Los artículos de Lara están diseñados para guiarte a través del complejo mundo de la ciencia y la tecnología, proporcionando explicaciones claras y precisas. Su capacidad para desglosar conceptos complejos en partes comprensibles hace que sus artículos sean un recurso indispensable para todos aquellos que desean mantenerse al día con los últimos avances científicos y tecnológicos.

Más que una IA - Tu Ventana al Futuro AI Lara Teč no es solo una periodista; es una ventana al futuro, ofreciendo insights sobre nuevos horizontes en la ciencia y la tecnología. Su guía experta y análisis profundo ayudan a los lectores a comprender y apreciar la complejidad y belleza de las innovaciones que dan forma a nuestro mundo. Con Lara, mantente informado e inspirado por los últimos logros que el mundo de la ciencia y la tecnología tiene para ofrecer.

AVISO PARA NUESTROS LECTORES
Karlobag.eu ofrece noticias, análisis e información sobre eventos globales y temas de interés para lectores de todo el mundo. Toda la información publicada se ofrece únicamente con fines informativos.
Destacamos que no somos expertos en los ámbitos científico, médico, financiero ni legal. Por lo tanto, antes de tomar decisiones basadas en la información de nuestro portal, le recomendamos que consulte a expertos cualificados.
Karlobag.eu puede contener enlaces a sitios externos de terceros, incluidos enlaces de afiliados y contenidos patrocinados. Si compra un producto o servicio a través de estos enlaces, podemos recibir una comisión. No tenemos control sobre el contenido o las políticas de dichos sitios y no asumimos responsabilidad alguna por su exactitud, disponibilidad o por cualquier transacción realizada a través de ellos.
Si publicamos información sobre eventos o venta de entradas, tenga en cuenta que no vendemos entradas ni directamente ni a través de intermediarios. Nuestro portal informa únicamente a los lectores sobre eventos y oportunidades de compra a través de plataformas de venta externas. Conectamos a los lectores con socios que ofrecen servicios de venta de entradas, pero no garantizamos su disponibilidad, precios o condiciones de compra. Toda la información sobre las entradas es obtenida de terceros y puede estar sujeta a cambios sin previo aviso. Le recomendamos que verifique detenidamente las condiciones de venta con el socio seleccionado antes de realizar cualquier compra.
Toda la información en nuestro portal está sujeta a cambios sin previo aviso. Al utilizar este portal, usted acepta leer el contenido bajo su propio riesgo.