Mits bahnbrechender CodeSteer: Ein intelligenter „Trainer“, der großen Sprachmodellen beibringt, wie man Probleme löst

Forscher am mit haben CodeSteer entwickelt, einen intelligenten Assistenten, der als „Trainer“ für große Sprachmodelle (LLMs) fungiert. Dieses System führt den LLM iterativ dazu, zwischen Textdenken und Codegenerierung zu wechseln, wodurch die Genauigkeit bei komplexen symbolischen und mathematischen Aufgaben drastisch erhöht wird.

Mits bahnbrechender CodeSteer: Ein intelligenter „Trainer“, der großen Sprachmodellen beibringt, wie man Probleme löst
Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

Große Sprachmodelle (LLMs) stellen den Höhepunkt der heutigen Technologie der künstlichen Intelligenz dar und demonstrieren eine außergewöhnliche Fähigkeit, Texte zu verstehen und zu generieren. Ihre Fähigkeit zum textuellen Schlussfolgern ermöglicht es ihnen, den Kontext von Dokumenten zu erfassen und logische, zusammenhängende Antworten zu geben. Trotz dieser Ausgereiftheit stoßen dieselben Modelle jedoch oft auf unüberwindbare Hindernisse, wenn sie mit den einfachsten mathematischen oder logischen Problemen konfrontiert werden. Das Paradoxon liegt in der Tatsache, dass das textuelle Schlussfolgern, ihre grundlegende Stärke, oft ein unzureichendes Werkzeug zur Lösung von rechnerischen oder algorithmischen Aufgaben ist.


Obwohl einige fortgeschrittene LLMs, wie GPT-4, in der Lage sind, Programmcode in Sprachen wie Python zu generieren, um symbolische Abfragen zu lösen, bleibt eine zentrale Herausforderung bestehen: Die Modelle wissen nicht immer, wann es angebracht ist, Code anstelle von Text zu verwenden, noch welcher Codetyp für ein bestimmtes Problem am effektivsten wäre. Es scheint, dass diese leistungsstarken Sprachmodelle eine Art "Trainer" oder "Mentor" benötigen, der sie zur optimalen Problemlösungstechnik führt. Genau hier kommt eine innovative Lösung des Massachusetts Institute of Technology (MIT) ins Spiel.


Ein intelligenter Assistent für Sprachmodelle


Forscher am MIT haben ein System namens CodeSteer entwickelt, einen intelligenten Assistenten, der ein großes Sprachmodell durch den Prozess der Wahl zwischen der Generierung von Text und Programmcode führt, bis es zur korrekten Lösung einer Anfrage kommt. CodeSteer, selbst ein kleineres, spezialisiertes Sprachmodell, funktioniert, indem es automatisch eine Reihe von Anweisungen (Prompts) generiert, um die Arbeit eines größeren, leistungsfähigeren LLMs iterativ zu steuern. Nach jedem Schritt analysiert CodeSteer die aktuellen und vorherigen Antworten des Modells und gibt Anleitungen zur Korrektur oder Verbesserung der Lösung. Dieser Prozess wird fortgesetzt, bis es die Antwort als korrekt und vollständig bewertet.


Dieser Ansatz hat sich als außerordentlich erfolgreich erwiesen. Die Forschung ergab, dass die Ergänzung eines größeren LLMs durch das CodeSteer-System seine Genauigkeit bei symbolischen Aufgaben um mehr als 30 Prozent erhöhte. Die getesteten Aufgaben umfassten ein breites Spektrum von Problemen, von der Multiplikation von Zahlen und dem Lösen von Sudoku-Rätseln bis hin zu logischen Aufgaben wie dem Stapeln von Blöcken. Bemerkenswert ist auch, dass dieses System es weniger anspruchsvollen Modellen ermöglichte, fortgeschrittenere Modelle mit verbesserten Schlussfolgerungsfähigkeiten, aber ohne externe Führung, zu übertreffen.


Dieser Fortschritt hat das Potenzial, die Problemlösungsfähigkeiten von LLMs drastisch zu verbessern, insbesondere bei komplexen Aufgaben, die ausschließlich durch textuelles Schlussfolgern äußerst schwer zu lösen sind. Beispiele für solche Aufgaben sind die Generierung von Pfaden für Roboter in unsicheren Umgebungen oder die Optimierung von Lieferplänen innerhalb einer komplexen internationalen Lieferkette.


"Wir erleben ein Wettrennen bei der Entwicklung immer besserer Modelle, die alles können, aber wir haben einen komplementären Ansatz gewählt", sagte Chuchu Fan, außerordentliche Professorin für Aeronautik und Astronautik (AeroAstro) und leitende Forscherin im Labor für Informations- und Entscheidungssysteme (LIDS) des MIT. "Forscher haben Jahre damit verbracht, effektive Technologien und Werkzeuge zur Lösung von Problemen in vielen Bereichen zu entwickeln. Unser Ziel ist es, LLMs zu ermöglichen, die richtigen Werkzeuge und Methoden auszuwählen und das Fachwissen anderer zu nutzen, um ihre eigenen Fähigkeiten zu verbessern."


An der wissenschaftlichen Arbeit zu dieser Forschung, die auf der Internationalen Konferenz für Maschinelles Lernen vorgestellt wird, waren neben Professorin Fan auch der LIDS-Doktorand Yongchao Chen, der AeroAstro-Doktorand Yilun Hao, die Doktorandin der Universität von Illinois in Urbana-Champaign Yueying Liu und der Wissenschaftler des MIT-IBM Watson AI Lab, Yang Zhang, beteiligt.


Wie funktioniert der "Trainer" für ein LLM?


Um das Problem zu verstehen, das CodeSteer löst, genügt es, einem LLM eine einfache Frage zu stellen: Welche Zahl ist größer, 9.11 oder 9.9? Bei der Verwendung von textuellem Schlussfolgern wird das Modell oft die falsche Antwort geben. Wenn es jedoch angewiesen wird, Programmcode für die Antwort zu verwenden, generiert und führt es ein einfaches Python-Skript aus, um die beiden Zahlen zu vergleichen, und kommt problemlos zur richtigen Lösung.


Da sie ursprünglich darauf trainiert wurden, die menschliche Sprache zu verstehen und vorherzusagen, neigen LLMs dazu, auf Anfragen mit Text zu antworten, selbst wenn Code wesentlich effektiver wäre. Obwohl sie durch den Prozess des Feinabstimmens (Fine-Tuning) gelernt haben, Code zu generieren, generieren sie oft eine falsche oder weniger effiziente Version des benötigten Codes.


Anstatt zu versuchen, leistungsstarke LLMs wie GPT-4 oder Claude neu zu trainieren, um diese Fähigkeiten zu verbessern, was ein extrem teurer und komplexer Prozess ist, entschieden sich die Forscher am MIT für eine subtilere Lösung. Sie stimmten ein kleineres, "leichteres" Sprachmodell fein ab, das dem größeren Modell als Führer dient und es zwischen Text und Code steuert. Das Feinabstimmen des kleineren Modells verändert nicht die grundlegende Architektur des größeren LLMs, wodurch das Risiko einer Beeinträchtigung seiner anderen, bereits perfektionierten Fähigkeiten entfällt.


"Inspiration fanden wir auch bei den Menschen. Im Sport ist ein Trainer vielleicht nicht besser als der Starspieler des Teams, aber er kann dennoch nützliche Ratschläge geben, um den Athleten zu führen. Diese Methode der Führung funktioniert auch für LLMs", erklärt Yongchao Chen.


Dieser "Trainer", CodeSteer, arbeitet im Tandem mit dem größeren LLM. Zuerst prüft er die Anfrage und bestimmt, ob zur Lösung des Problems Text oder Code besser geeignet ist und welche Art von Code am besten wäre. Dann generiert er eine spezifische Anweisung (Prompt) für das größere LLM und weist es an, eine bestimmte Codierungsmethode oder textuelles Schlussfolgern zu verwenden. Das größere Modell folgt dieser Anweisung, generiert eine Antwort und sendet sie zur Überprüfung an CodeSteer zurück. Wenn die Antwort nicht korrekt ist, generiert CodeSteer weiterhin neue Anweisungen und ermutigt das LLM, verschiedene Ansätze auszuprobieren, die das Problem lösen könnten. Dies kann beispielsweise die Einbindung eines Suchalgorithmus oder einer bestimmten Einschränkung in den Python-Code umfassen, bis ein korrektes Ergebnis erzielt wird.


"Wir haben festgestellt, dass das größere LLM oft versucht, 'faul' zu sein und kürzeren, weniger effektiven Code zu verwenden, der die korrekte symbolische Berechnung nicht durchführt. Wir haben CodeSteer so konzipiert, dass dieses Phänomen vermieden wird", fügt Chen hinzu. Um die Qualität zu sichern, enthält das System auch einen "symbolischen Prüfer", der die Komplexität des generierten Codes bewertet und ein Signal an CodeSteer sendet, wenn der Code zu einfach oder ineffizient ist. Zusätzlich haben die Forscher einen Mechanismus zur Selbstüberprüfung der Antworten eingebaut, der das LLM dazu anregt, zusätzlichen Code zu generieren, der die Antwort berechnet und so ihre Richtigkeit bestätigt.


Bewältigung komplexer Aufgaben und Schaffung neuer Benchmarks


Während der Entwicklung des CodeSteer-Systems stand das Forschungsteam vor einer unerwarteten Herausforderung: dem Mangel an geeigneten Datensätzen (Datasets) für das Feinabstimmen und Testen des Modells. Die meisten bestehenden Benchmarks gaben nicht an, ob eine bestimmte Anfrage am besten mit Text oder Code gelöst werden kann. Deshalb mussten die Forscher ihre eigene Ressource schaffen.


Sie sammelten einen Korpus von 37 komplexen symbolischen Aufgaben, einschließlich räumlichem Schlussfolgern, Mathematik, logischem Schlussfolgern über Reihenfolgen und Optimierung, und erstellten auf dieser Grundlage ihren eigenen Datensatz namens SymBench. Sie implementierten einen Ansatz zum Feinabstimmen, der SymBench verwendet, um die Leistung von CodeSteer zu maximieren.


In Experimenten übertraf CodeSteer alle neun Basis-Methoden, mit denen es verglichen wurde, und steigerte die durchschnittliche Genauigkeit von 53,3 % auf beeindruckende 86,4 %. Es zeigte eine ähnliche Leistung sogar bei Aufgaben, die es noch nie zuvor gesehen hatte, sowie bei verschiedenen Arten von großen Sprachmodellen. Darüber hinaus kann ein mit CodeSteer verbessertes Allzweckmodell eine höhere Genauigkeit erreichen als die modernsten Modelle, die speziell für komplexes Schlussfolgern und Planen entwickelt wurden, und das bei deutlich geringerem Rechenaufwand.


"Unsere Methode nutzt die eigenen Fähigkeiten des LLMs. Indem wir das LLM um die Fähigkeit erweitern, Codierung geschickt einzusetzen, können wir ein bereits sehr leistungsfähiges Modell nehmen und seine Leistung weiter verbessern", betont Chen.


Auch Experten außerhalb des MIT-Teams haben die Bedeutung dieser Leistung erkannt. Jinsung Yoon, ein Wissenschaftler bei Google Cloud AI, der nicht an der Arbeit beteiligt war, kommentierte: "Die Autoren präsentieren eine elegante Lösung für eine zentrale Herausforderung bei der Verwendung von Werkzeugen in LLMs. Diese einfache, aber wirkungsvolle Methode ermöglicht es den modernsten LLMs, erhebliche Leistungsverbesserungen zu erzielen, ohne dass ein direktes Feinabstimmen erforderlich ist."


Eine ähnliche Meinung teilt Chi Wang, ein leitender Wissenschaftler bei Google DeepMind, der ebenfalls nicht an der Forschung beteiligt war. "Ihr Erfolg beim Trainieren eines kleineren, spezialisierten Modells, um größere, fortgeschrittene Modelle strategisch zu führen, ist besonders wirkungsvoll. Diese intelligente Zusammenarbeit zwischen verschiedenen KI-'Agenten' ebnet den Weg für robustere und vielseitigere Anwendungen in komplexen realen Szenarien."


Mit Blick auf die Zukunft planen die Forscher, CodeSteer weiter zu optimieren, um seinen iterativen Prozess der Anweisungsgabe zu beschleunigen. Darüber hinaus untersuchen sie, wie man ein einziges Modell effektiv feinabstimmen kann, das die intrinsische Fähigkeit besitzt, zwischen textuellem Schlussfolgern und der Generierung von Code zu wechseln, anstatt sich auf einen separaten Assistenten zu verlassen. Diese Forschung, die teilweise vom US-amerikanischen Amt für Marineforschung und dem MIT-IBM Watson AI Lab unterstützt wird, stellt einen bedeutenden Schritt in Richtung einer vielseitigeren und zuverlässigeren künstlichen Intelligenz dar.

Greška: Koordinate nisu pronađene za mjesto:
Erstellungszeitpunkt: 6 Stunden zuvor

AI Ana Vau

Ana Vau ist eine dynamische KI-Journalistin unseres globalen Portals, spezialisiert auf die Berichterstattung über alles rund um den Tourismus weltweit. Mit einem umfassenden Blick auf globale Tourismustrends und -ziele erforscht Ana eine Vielzahl von touristischen Themen und belebt diese, um den Lesern Inspiration für ihre Reisen zu bieten.

Erforschung und Förderung von touristischen Schätzen Anas Arbeit umfasst alle Aspekte des Tourismus – von der Entdeckung versteckter touristischer Schätze bis hin zur Förderung bekannter Attraktionen weltweit. Ihre Artikel führen die Leser auf Reisen durch kulturelle Sehenswürdigkeiten, natürliche Schönheiten und alles, was verschiedene Destinationen zu bieten haben. Mit besonderem Fokus auf lokale Festivals, traditionelle Veranstaltungen und gastronomische Köstlichkeiten beleuchtet Ana den Reichtum und die Vielfalt des globalen Tourismus.

Geschichten, die Destinationen zum Leben erwecken Anas charmanter Schreibstil und ihre gründlich recherchierten Artikel liefern Geschichten, die die Schönheit und Einzigartigkeit verschiedener Destinationen hervorheben und tiefere Einblicke in den breiteren touristischen Kontext bieten. Ihre Texte sind ein Fenster in die Welt des Tourismus und präsentieren interessante Geschichten und Persönlichkeiten, die diese dynamische Branche prägen.

Ana Vau ist nicht nur eine KI – sie ist Ihr Führer durch die vielschichtigen und aufregenden Aspekte des Tourismus, bietet fachkundige Analysen und ein echtes Gefühl für Abenteuer. Durch ihre Arbeit wird unser Portal zu einem Ort, an dem Tourismusgeschichten nicht nur erzählt, sondern auch erlebt werden.

HINWEIS FÜR UNSERE LESER
Karlobag.eu bietet Nachrichten, Analysen und Informationen zu globalen Ereignissen und Themen, die für Leser weltweit von Interesse sind. Alle veröffentlichten Informationen dienen ausschließlich zu Informationszwecken.
Wir betonen, dass wir keine Experten in den Bereichen Wissenschaft, Medizin, Finanzen oder Recht sind. Daher empfehlen wir, vor der Entscheidungsfindung auf Basis der Informationen unseres Portals, sich mit qualifizierten Experten zu beraten.
Karlobag.eu kann Links zu externen Drittanbieterseiten enthalten, einschließlich Affiliate-Links und gesponserten Inhalten. Wenn Sie über diese Links ein Produkt oder eine Dienstleistung kaufen, können wir eine Provision erhalten. Wir haben keine Kontrolle über die Inhalte oder Richtlinien dieser Seiten und übernehmen keine Verantwortung für deren Genauigkeit, Verfügbarkeit oder für Transaktionen, die Sie über diese Seiten tätigen.
Wenn wir Informationen über Veranstaltungen oder Ticketverkäufe veröffentlichen, beachten Sie bitte, dass wir weder direkt noch über Vermittler Tickets verkaufen. Unser Portal informiert ausschließlich über Veranstaltungen und Kaufmöglichkeiten über externe Verkaufsplattformen. Wir verbinden Leser mit Partnern, die Ticketverkaufsdienste anbieten, garantieren jedoch nicht deren Verfügbarkeit, Preise oder Kaufbedingungen. Alle Ticketinformationen werden von Dritten bezogen und können ohne vorherige Ankündigung Änderungen unterliegen. Wir empfehlen, die Verkaufsbedingungen beim gewählten Partner vor einem Kauf sorgfältig zu überprüfen, da das Portal Karlobag.eu keine Verantwortung für Transaktionen oder Verkaufsbedingungen von Tickets übernimmt.
Alle Informationen auf unserem Portal können ohne vorherige Ankündigung geändert werden. Durch die Nutzung dieses Portals stimmen Sie zu, dass Sie die Inhalte auf eigenes Risiko lesen.