CodeSteer: MIT AI Trainer para modelos LLM más inteligentes

El innovador CodeSteer del MIT: un "entrenador" inteligente que enseña a los grandes modelos de lenguaje cómo resolver problemas

Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

Los grandes modelos de lenguaje (LLM) representan la cúspide de la tecnología de inteligencia artificial actual, demostrando una extraordinaria capacidad para comprender y generar texto. Su habilidad en el razonamiento textual les permite captar el contexto de los documentos y proporcionar respuestas lógicas y coherentes. Sin embargo, a pesar de esta sofisticación, estos mismos modelos a menudo encuentran obstáculos insuperables cuando se enfrentan a los problemas matemáticos o lógicos más simples. La paradoja radica en el hecho de que el razonamiento textual, su fortaleza fundamental, es a menudo una herramienta inadecuada para resolver tareas computacionales o algorítmicas.

Aunque algunos LLM avanzados, como GPT-4, son capaces de generar código de programación en lenguajes como Python para resolver consultas simbólicas, sigue existiendo un desafío clave: los modelos no siempre saben cuándo es apropiado usar código en lugar de texto, ni qué tipo de código sería más eficaz para un problema dado. Parece que estos potentes modelos de lenguaje necesitan una especie de "entrenador" o "mentor" que los guíe hacia la técnica óptima de resolución de problemas. Es precisamente aquí donde entra en escena una solución innovadora del Instituto de Tecnología de Massachusetts (MIT).

Un asistente inteligente para modelos de lenguaje

Investigadores del MIT han desarrollado un sistema llamado CodeSteer, un asistente inteligente diseñado para guiar a un gran modelo de lenguaje a través del proceso de elegir entre generar texto y código de programación hasta que llega a la solución correcta de una consulta. CodeSteer, que es en sí mismo un modelo de lenguaje más pequeño y especializado, funciona generando automáticamente una serie de instrucciones (prompts) para dirigir iterativamente el trabajo de un LLM más grande y potente. Después de cada paso, CodeSteer analiza las respuestas actuales y anteriores del modelo y proporciona orientación para corregir o mejorar la solución, continuando este proceso hasta que considera que la respuesta es correcta y completa.

Este enfoque ha demostrado ser extremadamente exitoso. La investigación descubrió que complementar un LLM más grande con el sistema CodeSteer aumentó su precisión en tareas simbólicas en más de un 30 por ciento. Las tareas probadas incluyeron una amplia gama de problemas, desde multiplicar números y resolver rompecabezas de Sudoku hasta tareas lógicas como apilar bloques. También es significativo que este sistema permitió que modelos menos sofisticados superaran a modelos más avanzados con capacidades de razonamiento mejoradas, pero sin guía externa.

Este avance tiene el potencial de mejorar drásticamente las capacidades de resolución de problemas de los LLM, especialmente en tareas complejas que son extremadamente difíciles de resolver únicamente con razonamiento textual. Ejemplos de tales tareas incluyen la generación de rutas para robots en entornos inciertos o la optimización de horarios de envío dentro de una compleja cadena de suministro internacional.

"Estamos presenciando una carrera en el desarrollo de modelos cada vez mejores y capaces de todo, pero nosotros hemos adoptado un enfoque complementario", declaró Chuchu Fan, profesora asociada de aeronáutica y astronáutica (AeroAstro) e investigadora principal en el Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT. "Los investigadores han pasado años desarrollando tecnologías y herramientas eficaces para resolver problemas en muchos dominios. Nuestro objetivo es permitir que los LLM elijan las herramientas y métodos adecuados y aprovechen la experiencia de otros para mejorar sus propias capacidades."

En el artículo científico sobre esta investigación, que se presentará en la Conferencia Internacional sobre Aprendizaje Automático, junto a la profesora Fan participaron el estudiante de posgrado de LIDS Yongchao Chen, el estudiante de posgrado de AeroAstro Yilun Hao, la estudiante de posgrado de la Universidad de Illinois en Urbana-Champaign Yueying Liu, y el científico del MIT-IBM Watson AI Lab, Yang Zhang.

¿Cómo funciona el "entrenador" para un LLM?

Para entender el problema que resuelve CodeSteer, basta con hacerle a un LLM una pregunta simple: ¿qué número es mayor, 9.11 o 9.9? Usando el razonamiento textual, el modelo a menudo dará la respuesta incorrecta. Sin embargo, si se le indica que use código de programación para la respuesta, generará y ejecutará un simple script de Python para comparar los dos números y llegará a la solución correcta sin ningún problema.

Debido a que fueron entrenados inicialmente para comprender y predecir el lenguaje humano, los LLM son más propensos a responder a las consultas utilizando texto, incluso cuando el código sería significativamente más eficiente. Aunque a través del proceso de ajuste fino (fine-tuning) han aprendido a generar código, a menudo generan una versión incorrecta o menos eficiente del código necesario.

En lugar de intentar reentrenar potentes LLM como GPT-4 o Claude para mejorar estas capacidades, lo cual es un proceso extremadamente costoso y complejo, los investigadores del MIT optaron por una solución más refinada. Ajustaron finamente un modelo de lenguaje más pequeño y "ligero" que sirve como guía para el modelo más grande, dirigiéndolo entre el texto y el código. El ajuste fino del modelo más pequeño no cambia la arquitectura fundamental del LLM más grande, eliminando así el riesgo de perjudicar sus otras habilidades ya perfeccionadas.

"También encontramos inspiración en las personas. En los deportes, un entrenador puede no ser mejor que la estrella del equipo, pero aun así puede dar consejos útiles para guiar al atleta. Este método de orientación también funciona para los LLM", explica Yongchao Chen.

Este "entrenador", CodeSteer, trabaja en tándem con el LLM más grande. Primero revisa la consulta y determina si para resolver el problema es más apropiado el texto o el código, y qué tipo de código sería el mejor. Luego genera una instrucción específica (prompt) para el LLM más grande, indicándole que use un método de codificación particular o razonamiento textual. El modelo más grande sigue esa instrucción, genera una respuesta y la envía de vuelta a CodeSteer para su verificación. Si la respuesta no es correcta, CodeSteer continúa generando nuevas instrucciones, animando al LLM a probar diferentes enfoques que podrían resolver el problema. Esto puede incluir, por ejemplo, incorporar un algoritmo de búsqueda o una restricción específica en el código de Python, hasta que se logre un resultado correcto.

"Descubrimos que el LLM más grande a menudo intentará ser 'perezoso' y usar un código más corto y menos eficiente que no realizará el cálculo simbólico correcto. Diseñamos CodeSteer para evitar ese fenómeno", agrega Chen. Para asegurar la calidad, el sistema también incluye un "verificador simbólico" que evalúa la complejidad del código generado y envía una señal a CodeSteer si el código es demasiado simple o ineficiente. Además, los investigadores han incorporado un mecanismo de autoverificación de respuestas, que incita al LLM a generar código adicional que calculará la respuesta y así confirmará su corrección.

Afrontando tareas complejas y creando nuevos puntos de referencia

Durante el desarrollo del sistema CodeSteer, el equipo de investigación se enfrentó a un desafío inesperado: la falta de conjuntos de datos (datasets) adecuados para el ajuste fino y la prueba del modelo. La mayoría de los puntos de referencia (benchmarks) existentes no especificaban si una consulta particular podía resolverse mejor con texto o código. Por ello, los investigadores tuvieron que crear su propio recurso.

Recopilaron un corpus de 37 tareas simbólicas complejas, que incluían razonamiento espacial, matemáticas, razonamiento lógico sobre secuencias y optimización, y sobre esa base construyeron su propio conjunto de datos llamado SymBench. Implementaron un enfoque de ajuste fino que utiliza SymBench para maximizar el rendimiento de CodeSteer.

En los experimentos, CodeSteer superó a los nueve métodos de referencia con los que se comparó y elevó la precisión promedio del 53.3% a un impresionante 86.4%. Mostró un rendimiento similar incluso en tareas que nunca antes había visto, así como en diferentes tipos de grandes modelos de lenguaje. Además, un modelo de propósito general mejorado con CodeSteer puede alcanzar una mayor precisión que los modelos de última generación diseñados específicamente para el razonamiento y la planificación complejos, y con un consumo computacional significativamente menor.

"Nuestro método utiliza las propias capacidades del LLM. Al ampliar el LLM con la capacidad de usar la codificación de manera inteligente, podemos tomar un modelo que ya es muy potente y mejorar aún más su rendimiento", señala Chen.

Expertos fuera del equipo del MIT también han reconocido la importancia de este logro. Jinsung Yoon, científico de Google Cloud AI, que no participó en el trabajo, comentó: "Los autores presentan una solución elegante para un desafío clave del uso de herramientas en los LLM. Este método simple pero impactante permite a los LLM de última generación lograr mejoras significativas en el rendimiento sin necesidad de un ajuste fino directo."

Una opinión similar comparte Chi Wang, científico principal de Google DeepMind, quien tampoco participó en la investigación. "Su éxito en entrenar un modelo más pequeño y especializado para guiar estratégicamente a modelos más grandes y avanzados es particularmente impactante. Esta colaboración inteligente entre diferentes 'agentes' de IA abre el camino para aplicaciones más robustas y versátiles en escenarios complejos del mundo real."

Mirando hacia el futuro, los investigadores planean optimizar aún más CodeSteer para acelerar su proceso iterativo de dar instrucciones. Además, están explorando cómo ajustar finamente de manera efectiva un modelo único que tendría la capacidad intrínseca de cambiar entre el razonamiento textual y la generación de código, en lugar de depender de un asistente separado. Esta investigación, apoyada en parte por la Oficina de Investigación Naval de EE. UU. y el MIT-IBM Watson AI Lab, representa un paso significativo hacia la creación de una inteligencia artificial más versátil y confiable.

Greška: Koordinate nisu pronađene za mjesto:

Hora de creación: 18 julio, 2025

El innovador CodeSteer del MIT: un "entrenador" inteligente que enseña a los grandes modelos de lenguaje cómo resolver problemas

Un asistente inteligente para modelos de lenguaje

¿Cómo funciona el "entrenador" para un LLM?

Afrontando tareas complejas y creando nuevos puntos de referencia

AI Ana Vau

Eventos en Croacia

Noche de San Lorenzo 2025 en Rovinj: un espectáculo romántico bajo las estrellas con un concierto de Vanna y miles de velas

Asunción en Trsat 2025: Programa detallado y horario de las Santas Misas en el Santuario de Nuestra Señora de Trsat en Rijeka

Rijeka Stairs 2025: la espectacular 17ª edición trae glamour y moda a una pasarela única con el Grand Hotel Bonavia

Eventos en Novi Vinodolski: Concierto para Oliver, Đani Stipaničev, Sails of Vinodol y un rico programa de verano

Concierto 'En honor a Oliver' en Novi Vinodolski: Magia musical con las canciones más bellas en el islote de San Marino

El festival medieval de Svetvinčenat atrajo a 15.000 visitantes: un espectáculo con el rey Arturo y hechizos de fuego

Baile en Zrinjevac en agosto: Regresa a la época dorada del baile con talleres y conciertos gratuitos en el corazón de Zagreb

Festival de Cine Ecológico Esmeralda en Hrvatska Kostajnica: Magia cinematográfica y activismo ecológico a orillas del río Una

Tendencias

El innovador CodeSteer del MIT: un "entrenador" inteligente que enseña a los grandes modelos de lenguaje cómo resolver problemas

Un asistente inteligente para modelos de lenguaje

¿Cómo funciona el "entrenador" para un LLM?

Afrontando tareas complejas y creando nuevos puntos de referencia

Relacionado