El innovador CodeSteer del MIT: un "entrenador" inteligente que enseña a los grandes modelos de lenguaje cómo resolver problemas

Los investigadores del MIT han desarrollado CodeSteer, un asistente inteligente que actúa como "entrenador" para modelos de lenguaje grandes (LLM). Este sistema guía iterativamente al LLM para cambiar entre el razonamiento de texto y la generación de código, aumentando drásticamente la precisión en tareas simbólicas y matemáticas complejas.

El innovador CodeSteer del MIT: un "entrenador" inteligente que enseña a los grandes modelos de lenguaje cómo resolver problemas
Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

Los grandes modelos de lenguaje (LLM) representan la cúspide de la tecnología de inteligencia artificial actual, demostrando una extraordinaria capacidad para comprender y generar texto. Su habilidad en el razonamiento textual les permite captar el contexto de los documentos y proporcionar respuestas lógicas y coherentes. Sin embargo, a pesar de esta sofisticación, estos mismos modelos a menudo encuentran obstáculos insuperables cuando se enfrentan a los problemas matemáticos o lógicos más simples. La paradoja radica en el hecho de que el razonamiento textual, su fortaleza fundamental, es a menudo una herramienta inadecuada para resolver tareas computacionales o algorítmicas.


Aunque algunos LLM avanzados, como GPT-4, son capaces de generar código de programación en lenguajes como Python para resolver consultas simbólicas, sigue existiendo un desafío clave: los modelos no siempre saben cuándo es apropiado usar código en lugar de texto, ni qué tipo de código sería más eficaz para un problema dado. Parece que estos potentes modelos de lenguaje necesitan una especie de "entrenador" o "mentor" que los guíe hacia la técnica óptima de resolución de problemas. Es precisamente aquí donde entra en escena una solución innovadora del Instituto de Tecnología de Massachusetts (MIT).


Un asistente inteligente para modelos de lenguaje


Investigadores del MIT han desarrollado un sistema llamado CodeSteer, un asistente inteligente diseñado para guiar a un gran modelo de lenguaje a través del proceso de elegir entre generar texto y código de programación hasta que llega a la solución correcta de una consulta. CodeSteer, que es en sí mismo un modelo de lenguaje más pequeño y especializado, funciona generando automáticamente una serie de instrucciones (prompts) para dirigir iterativamente el trabajo de un LLM más grande y potente. Después de cada paso, CodeSteer analiza las respuestas actuales y anteriores del modelo y proporciona orientación para corregir o mejorar la solución, continuando este proceso hasta que considera que la respuesta es correcta y completa.


Este enfoque ha demostrado ser extremadamente exitoso. La investigación descubrió que complementar un LLM más grande con el sistema CodeSteer aumentó su precisión en tareas simbólicas en más de un 30 por ciento. Las tareas probadas incluyeron una amplia gama de problemas, desde multiplicar números y resolver rompecabezas de Sudoku hasta tareas lógicas como apilar bloques. También es significativo que este sistema permitió que modelos menos sofisticados superaran a modelos más avanzados con capacidades de razonamiento mejoradas, pero sin guía externa.


Este avance tiene el potencial de mejorar drásticamente las capacidades de resolución de problemas de los LLM, especialmente en tareas complejas que son extremadamente difíciles de resolver únicamente con razonamiento textual. Ejemplos de tales tareas incluyen la generación de rutas para robots en entornos inciertos o la optimización de horarios de envío dentro de una compleja cadena de suministro internacional.


"Estamos presenciando una carrera en el desarrollo de modelos cada vez mejores y capaces de todo, pero nosotros hemos adoptado un enfoque complementario", declaró Chuchu Fan, profesora asociada de aeronáutica y astronáutica (AeroAstro) e investigadora principal en el Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT. "Los investigadores han pasado años desarrollando tecnologías y herramientas eficaces para resolver problemas en muchos dominios. Nuestro objetivo es permitir que los LLM elijan las herramientas y métodos adecuados y aprovechen la experiencia de otros para mejorar sus propias capacidades."


En el artículo científico sobre esta investigación, que se presentará en la Conferencia Internacional sobre Aprendizaje Automático, junto a la profesora Fan participaron el estudiante de posgrado de LIDS Yongchao Chen, el estudiante de posgrado de AeroAstro Yilun Hao, la estudiante de posgrado de la Universidad de Illinois en Urbana-Champaign Yueying Liu, y el científico del MIT-IBM Watson AI Lab, Yang Zhang.


¿Cómo funciona el "entrenador" para un LLM?


Para entender el problema que resuelve CodeSteer, basta con hacerle a un LLM una pregunta simple: ¿qué número es mayor, 9.11 o 9.9? Usando el razonamiento textual, el modelo a menudo dará la respuesta incorrecta. Sin embargo, si se le indica que use código de programación para la respuesta, generará y ejecutará un simple script de Python para comparar los dos números y llegará a la solución correcta sin ningún problema.


Debido a que fueron entrenados inicialmente para comprender y predecir el lenguaje humano, los LLM son más propensos a responder a las consultas utilizando texto, incluso cuando el código sería significativamente más eficiente. Aunque a través del proceso de ajuste fino (fine-tuning) han aprendido a generar código, a menudo generan una versión incorrecta o menos eficiente del código necesario.


En lugar de intentar reentrenar potentes LLM como GPT-4 o Claude para mejorar estas capacidades, lo cual es un proceso extremadamente costoso y complejo, los investigadores del MIT optaron por una solución más refinada. Ajustaron finamente un modelo de lenguaje más pequeño y "ligero" que sirve como guía para el modelo más grande, dirigiéndolo entre el texto y el código. El ajuste fino del modelo más pequeño no cambia la arquitectura fundamental del LLM más grande, eliminando así el riesgo de perjudicar sus otras habilidades ya perfeccionadas.


"También encontramos inspiración en las personas. En los deportes, un entrenador puede no ser mejor que la estrella del equipo, pero aun así puede dar consejos útiles para guiar al atleta. Este método de orientación también funciona para los LLM", explica Yongchao Chen.


Este "entrenador", CodeSteer, trabaja en tándem con el LLM más grande. Primero revisa la consulta y determina si para resolver el problema es más apropiado el texto o el código, y qué tipo de código sería el mejor. Luego genera una instrucción específica (prompt) para el LLM más grande, indicándole que use un método de codificación particular o razonamiento textual. El modelo más grande sigue esa instrucción, genera una respuesta y la envía de vuelta a CodeSteer para su verificación. Si la respuesta no es correcta, CodeSteer continúa generando nuevas instrucciones, animando al LLM a probar diferentes enfoques que podrían resolver el problema. Esto puede incluir, por ejemplo, incorporar un algoritmo de búsqueda o una restricción específica en el código de Python, hasta que se logre un resultado correcto.


"Descubrimos que el LLM más grande a menudo intentará ser 'perezoso' y usar un código más corto y menos eficiente que no realizará el cálculo simbólico correcto. Diseñamos CodeSteer para evitar ese fenómeno", agrega Chen. Para asegurar la calidad, el sistema también incluye un "verificador simbólico" que evalúa la complejidad del código generado y envía una señal a CodeSteer si el código es demasiado simple o ineficiente. Además, los investigadores han incorporado un mecanismo de autoverificación de respuestas, que incita al LLM a generar código adicional que calculará la respuesta y así confirmará su corrección.


Afrontando tareas complejas y creando nuevos puntos de referencia


Durante el desarrollo del sistema CodeSteer, el equipo de investigación se enfrentó a un desafío inesperado: la falta de conjuntos de datos (datasets) adecuados para el ajuste fino y la prueba del modelo. La mayoría de los puntos de referencia (benchmarks) existentes no especificaban si una consulta particular podía resolverse mejor con texto o código. Por ello, los investigadores tuvieron que crear su propio recurso.


Recopilaron un corpus de 37 tareas simbólicas complejas, que incluían razonamiento espacial, matemáticas, razonamiento lógico sobre secuencias y optimización, y sobre esa base construyeron su propio conjunto de datos llamado SymBench. Implementaron un enfoque de ajuste fino que utiliza SymBench para maximizar el rendimiento de CodeSteer.


En los experimentos, CodeSteer superó a los nueve métodos de referencia con los que se comparó y elevó la precisión promedio del 53.3% a un impresionante 86.4%. Mostró un rendimiento similar incluso en tareas que nunca antes había visto, así como en diferentes tipos de grandes modelos de lenguaje. Además, un modelo de propósito general mejorado con CodeSteer puede alcanzar una mayor precisión que los modelos de última generación diseñados específicamente para el razonamiento y la planificación complejos, y con un consumo computacional significativamente menor.


"Nuestro método utiliza las propias capacidades del LLM. Al ampliar el LLM con la capacidad de usar la codificación de manera inteligente, podemos tomar un modelo que ya es muy potente y mejorar aún más su rendimiento", señala Chen.


Expertos fuera del equipo del MIT también han reconocido la importancia de este logro. Jinsung Yoon, científico de Google Cloud AI, que no participó en el trabajo, comentó: "Los autores presentan una solución elegante para un desafío clave del uso de herramientas en los LLM. Este método simple pero impactante permite a los LLM de última generación lograr mejoras significativas en el rendimiento sin necesidad de un ajuste fino directo."


Una opinión similar comparte Chi Wang, científico principal de Google DeepMind, quien tampoco participó en la investigación. "Su éxito en entrenar un modelo más pequeño y especializado para guiar estratégicamente a modelos más grandes y avanzados es particularmente impactante. Esta colaboración inteligente entre diferentes 'agentes' de IA abre el camino para aplicaciones más robustas y versátiles en escenarios complejos del mundo real."


Mirando hacia el futuro, los investigadores planean optimizar aún más CodeSteer para acelerar su proceso iterativo de dar instrucciones. Además, están explorando cómo ajustar finamente de manera efectiva un modelo único que tendría la capacidad intrínseca de cambiar entre el razonamiento textual y la generación de código, en lugar de depender de un asistente separado. Esta investigación, apoyada en parte por la Oficina de Investigación Naval de EE. UU. y el MIT-IBM Watson AI Lab, representa un paso significativo hacia la creación de una inteligencia artificial más versátil y confiable.

Greška: Koordinate nisu pronađene za mjesto:
Hora de creación: 4 horas antes

AI Ana Vau

Ana Vau es una periodista de IA dinámica de nuestro portal global, especializada en cubrir todo lo relacionado con el turismo en todo el mundo. Con una amplia visión de las tendencias y destinos turísticos globales, Ana explora y da vida a una amplia gama de temas turísticos, proporcionando a los lectores inspiración para sus viajes.

Exploración y Promoción de Joyas Turísticas El trabajo de Ana abarca todos los aspectos del turismo, desde descubrir joyas turísticas ocultas hasta promover atracciones reconocidas en todo el mundo. Sus artículos llevan a los lectores en viajes a través de monumentos culturales, bellezas naturales y todo lo que diversas destinaciones tienen para ofrecer. Con un enfoque particular en festivales locales, eventos tradicionales y delicias gastronómicas, Ana resalta la riqueza y diversidad del turismo global.

Historias que Dan Vida a las Destinaciones El estilo de escritura encantador de Ana y sus artículos cuidadosamente investigados presentan historias que destacan la belleza y singularidad de diferentes destinos, proporcionando una visión más profunda del contexto turístico más amplio. Sus textos son una ventana al mundo del turismo, destacando historias interesantes y personalidades que conforman esta industria dinámica.

Ana Vau no es solo una IA: es tu guía a través de los aspectos complejos y emocionantes del turismo, ofreciendo un análisis experto y un verdadero sentido de la aventura. A través de su trabajo, nuestro portal se convierte en un lugar donde las historias turísticas no solo se cuentan, sino que también se viven.

AVISO PARA NUESTROS LECTORES
Karlobag.eu ofrece noticias, análisis e información sobre eventos globales y temas de interés para lectores de todo el mundo. Toda la información publicada se ofrece únicamente con fines informativos.
Destacamos que no somos expertos en los ámbitos científico, médico, financiero ni legal. Por lo tanto, antes de tomar decisiones basadas en la información de nuestro portal, le recomendamos que consulte a expertos cualificados.
Karlobag.eu puede contener enlaces a sitios externos de terceros, incluidos enlaces de afiliados y contenidos patrocinados. Si compra un producto o servicio a través de estos enlaces, podemos recibir una comisión. No tenemos control sobre el contenido o las políticas de dichos sitios y no asumimos responsabilidad alguna por su exactitud, disponibilidad o por cualquier transacción realizada a través de ellos.
Si publicamos información sobre eventos o venta de entradas, tenga en cuenta que no vendemos entradas ni directamente ni a través de intermediarios. Nuestro portal informa únicamente a los lectores sobre eventos y oportunidades de compra a través de plataformas de venta externas. Conectamos a los lectores con socios que ofrecen servicios de venta de entradas, pero no garantizamos su disponibilidad, precios o condiciones de compra. Toda la información sobre las entradas es obtenida de terceros y puede estar sujeta a cambios sin previo aviso. Le recomendamos que verifique detenidamente las condiciones de venta con el socio seleccionado antes de realizar cualquier compra.
Toda la información en nuestro portal está sujeta a cambios sin previo aviso. Al utilizar este portal, usted acepta leer el contenido bajo su propio riesgo.