Große Sprachmodelle (LLMs) stellen den Höhepunkt der heutigen Technologie der künstlichen Intelligenz dar und demonstrieren eine außergewöhnliche Fähigkeit, Texte zu verstehen und zu generieren. Ihre Fähigkeit zum textuellen Schlussfolgern ermöglicht es ihnen, den Kontext von Dokumenten zu erfassen und logische, zusammenhängende Antworten zu geben. Trotz dieser Ausgereiftheit stoßen dieselben Modelle jedoch oft auf unüberwindbare Hindernisse, wenn sie mit den einfachsten mathematischen oder logischen Problemen konfrontiert werden. Das Paradoxon liegt in der Tatsache, dass das textuelle Schlussfolgern, ihre grundlegende Stärke, oft ein unzureichendes Werkzeug zur Lösung von rechnerischen oder algorithmischen Aufgaben ist.
Obwohl einige fortgeschrittene LLMs, wie GPT-4, in der Lage sind, Programmcode in Sprachen wie Python zu generieren, um symbolische Abfragen zu lösen, bleibt eine zentrale Herausforderung bestehen: Die Modelle wissen nicht immer, wann es angebracht ist, Code anstelle von Text zu verwenden, noch welcher Codetyp für ein bestimmtes Problem am effektivsten wäre. Es scheint, dass diese leistungsstarken Sprachmodelle eine Art "Trainer" oder "Mentor" benötigen, der sie zur optimalen Problemlösungstechnik führt. Genau hier kommt eine innovative Lösung des Massachusetts Institute of Technology (MIT) ins Spiel.
Ein intelligenter Assistent für Sprachmodelle
Forscher am MIT haben ein System namens CodeSteer entwickelt, einen intelligenten Assistenten, der ein großes Sprachmodell durch den Prozess der Wahl zwischen der Generierung von Text und Programmcode führt, bis es zur korrekten Lösung einer Anfrage kommt. CodeSteer, selbst ein kleineres, spezialisiertes Sprachmodell, funktioniert, indem es automatisch eine Reihe von Anweisungen (Prompts) generiert, um die Arbeit eines größeren, leistungsfähigeren LLMs iterativ zu steuern. Nach jedem Schritt analysiert CodeSteer die aktuellen und vorherigen Antworten des Modells und gibt Anleitungen zur Korrektur oder Verbesserung der Lösung. Dieser Prozess wird fortgesetzt, bis es die Antwort als korrekt und vollständig bewertet.
Dieser Ansatz hat sich als außerordentlich erfolgreich erwiesen. Die Forschung ergab, dass die Ergänzung eines größeren LLMs durch das CodeSteer-System seine Genauigkeit bei symbolischen Aufgaben um mehr als 30 Prozent erhöhte. Die getesteten Aufgaben umfassten ein breites Spektrum von Problemen, von der Multiplikation von Zahlen und dem Lösen von Sudoku-Rätseln bis hin zu logischen Aufgaben wie dem Stapeln von Blöcken. Bemerkenswert ist auch, dass dieses System es weniger anspruchsvollen Modellen ermöglichte, fortgeschrittenere Modelle mit verbesserten Schlussfolgerungsfähigkeiten, aber ohne externe Führung, zu übertreffen.
Dieser Fortschritt hat das Potenzial, die Problemlösungsfähigkeiten von LLMs drastisch zu verbessern, insbesondere bei komplexen Aufgaben, die ausschließlich durch textuelles Schlussfolgern äußerst schwer zu lösen sind. Beispiele für solche Aufgaben sind die Generierung von Pfaden für Roboter in unsicheren Umgebungen oder die Optimierung von Lieferplänen innerhalb einer komplexen internationalen Lieferkette.
"Wir erleben ein Wettrennen bei der Entwicklung immer besserer Modelle, die alles können, aber wir haben einen komplementären Ansatz gewählt", sagte Chuchu Fan, außerordentliche Professorin für Aeronautik und Astronautik (AeroAstro) und leitende Forscherin im Labor für Informations- und Entscheidungssysteme (LIDS) des MIT. "Forscher haben Jahre damit verbracht, effektive Technologien und Werkzeuge zur Lösung von Problemen in vielen Bereichen zu entwickeln. Unser Ziel ist es, LLMs zu ermöglichen, die richtigen Werkzeuge und Methoden auszuwählen und das Fachwissen anderer zu nutzen, um ihre eigenen Fähigkeiten zu verbessern."
An der wissenschaftlichen Arbeit zu dieser Forschung, die auf der Internationalen Konferenz für Maschinelles Lernen vorgestellt wird, waren neben Professorin Fan auch der LIDS-Doktorand Yongchao Chen, der AeroAstro-Doktorand Yilun Hao, die Doktorandin der Universität von Illinois in Urbana-Champaign Yueying Liu und der Wissenschaftler des MIT-IBM Watson AI Lab, Yang Zhang, beteiligt.
Wie funktioniert der "Trainer" für ein LLM?
Um das Problem zu verstehen, das CodeSteer löst, genügt es, einem LLM eine einfache Frage zu stellen: Welche Zahl ist größer, 9.11 oder 9.9? Bei der Verwendung von textuellem Schlussfolgern wird das Modell oft die falsche Antwort geben. Wenn es jedoch angewiesen wird, Programmcode für die Antwort zu verwenden, generiert und führt es ein einfaches Python-Skript aus, um die beiden Zahlen zu vergleichen, und kommt problemlos zur richtigen Lösung.
Da sie ursprünglich darauf trainiert wurden, die menschliche Sprache zu verstehen und vorherzusagen, neigen LLMs dazu, auf Anfragen mit Text zu antworten, selbst wenn Code wesentlich effektiver wäre. Obwohl sie durch den Prozess des Feinabstimmens (Fine-Tuning) gelernt haben, Code zu generieren, generieren sie oft eine falsche oder weniger effiziente Version des benötigten Codes.
Anstatt zu versuchen, leistungsstarke LLMs wie GPT-4 oder Claude neu zu trainieren, um diese Fähigkeiten zu verbessern, was ein extrem teurer und komplexer Prozess ist, entschieden sich die Forscher am MIT für eine subtilere Lösung. Sie stimmten ein kleineres, "leichteres" Sprachmodell fein ab, das dem größeren Modell als Führer dient und es zwischen Text und Code steuert. Das Feinabstimmen des kleineren Modells verändert nicht die grundlegende Architektur des größeren LLMs, wodurch das Risiko einer Beeinträchtigung seiner anderen, bereits perfektionierten Fähigkeiten entfällt.
"Inspiration fanden wir auch bei den Menschen. Im Sport ist ein Trainer vielleicht nicht besser als der Starspieler des Teams, aber er kann dennoch nützliche Ratschläge geben, um den Athleten zu führen. Diese Methode der Führung funktioniert auch für LLMs", erklärt Yongchao Chen.
Dieser "Trainer", CodeSteer, arbeitet im Tandem mit dem größeren LLM. Zuerst prüft er die Anfrage und bestimmt, ob zur Lösung des Problems Text oder Code besser geeignet ist und welche Art von Code am besten wäre. Dann generiert er eine spezifische Anweisung (Prompt) für das größere LLM und weist es an, eine bestimmte Codierungsmethode oder textuelles Schlussfolgern zu verwenden. Das größere Modell folgt dieser Anweisung, generiert eine Antwort und sendet sie zur Überprüfung an CodeSteer zurück. Wenn die Antwort nicht korrekt ist, generiert CodeSteer weiterhin neue Anweisungen und ermutigt das LLM, verschiedene Ansätze auszuprobieren, die das Problem lösen könnten. Dies kann beispielsweise die Einbindung eines Suchalgorithmus oder einer bestimmten Einschränkung in den Python-Code umfassen, bis ein korrektes Ergebnis erzielt wird.
"Wir haben festgestellt, dass das größere LLM oft versucht, 'faul' zu sein und kürzeren, weniger effektiven Code zu verwenden, der die korrekte symbolische Berechnung nicht durchführt. Wir haben CodeSteer so konzipiert, dass dieses Phänomen vermieden wird", fügt Chen hinzu. Um die Qualität zu sichern, enthält das System auch einen "symbolischen Prüfer", der die Komplexität des generierten Codes bewertet und ein Signal an CodeSteer sendet, wenn der Code zu einfach oder ineffizient ist. Zusätzlich haben die Forscher einen Mechanismus zur Selbstüberprüfung der Antworten eingebaut, der das LLM dazu anregt, zusätzlichen Code zu generieren, der die Antwort berechnet und so ihre Richtigkeit bestätigt.
Bewältigung komplexer Aufgaben und Schaffung neuer Benchmarks
Während der Entwicklung des CodeSteer-Systems stand das Forschungsteam vor einer unerwarteten Herausforderung: dem Mangel an geeigneten Datensätzen (Datasets) für das Feinabstimmen und Testen des Modells. Die meisten bestehenden Benchmarks gaben nicht an, ob eine bestimmte Anfrage am besten mit Text oder Code gelöst werden kann. Deshalb mussten die Forscher ihre eigene Ressource schaffen.
Sie sammelten einen Korpus von 37 komplexen symbolischen Aufgaben, einschließlich räumlichem Schlussfolgern, Mathematik, logischem Schlussfolgern über Reihenfolgen und Optimierung, und erstellten auf dieser Grundlage ihren eigenen Datensatz namens SymBench. Sie implementierten einen Ansatz zum Feinabstimmen, der SymBench verwendet, um die Leistung von CodeSteer zu maximieren.
In Experimenten übertraf CodeSteer alle neun Basis-Methoden, mit denen es verglichen wurde, und steigerte die durchschnittliche Genauigkeit von 53,3 % auf beeindruckende 86,4 %. Es zeigte eine ähnliche Leistung sogar bei Aufgaben, die es noch nie zuvor gesehen hatte, sowie bei verschiedenen Arten von großen Sprachmodellen. Darüber hinaus kann ein mit CodeSteer verbessertes Allzweckmodell eine höhere Genauigkeit erreichen als die modernsten Modelle, die speziell für komplexes Schlussfolgern und Planen entwickelt wurden, und das bei deutlich geringerem Rechenaufwand.
"Unsere Methode nutzt die eigenen Fähigkeiten des LLMs. Indem wir das LLM um die Fähigkeit erweitern, Codierung geschickt einzusetzen, können wir ein bereits sehr leistungsfähiges Modell nehmen und seine Leistung weiter verbessern", betont Chen.
Auch Experten außerhalb des MIT-Teams haben die Bedeutung dieser Leistung erkannt. Jinsung Yoon, ein Wissenschaftler bei Google Cloud AI, der nicht an der Arbeit beteiligt war, kommentierte: "Die Autoren präsentieren eine elegante Lösung für eine zentrale Herausforderung bei der Verwendung von Werkzeugen in LLMs. Diese einfache, aber wirkungsvolle Methode ermöglicht es den modernsten LLMs, erhebliche Leistungsverbesserungen zu erzielen, ohne dass ein direktes Feinabstimmen erforderlich ist."
Eine ähnliche Meinung teilt Chi Wang, ein leitender Wissenschaftler bei Google DeepMind, der ebenfalls nicht an der Forschung beteiligt war. "Ihr Erfolg beim Trainieren eines kleineren, spezialisierten Modells, um größere, fortgeschrittene Modelle strategisch zu führen, ist besonders wirkungsvoll. Diese intelligente Zusammenarbeit zwischen verschiedenen KI-'Agenten' ebnet den Weg für robustere und vielseitigere Anwendungen in komplexen realen Szenarien."
Mit Blick auf die Zukunft planen die Forscher, CodeSteer weiter zu optimieren, um seinen iterativen Prozess der Anweisungsgabe zu beschleunigen. Darüber hinaus untersuchen sie, wie man ein einziges Modell effektiv feinabstimmen kann, das die intrinsische Fähigkeit besitzt, zwischen textuellem Schlussfolgern und der Generierung von Code zu wechseln, anstatt sich auf einen separaten Assistenten zu verlassen. Diese Forschung, die teilweise vom US-amerikanischen Amt für Marineforschung und dem MIT-IBM Watson AI Lab unterstützt wird, stellt einen bedeutenden Schritt in Richtung einer vielseitigeren und zuverlässigeren künstlichen Intelligenz dar.
Greška: Koordinate nisu pronađene za mjesto:
Erstellungszeitpunkt: 6 Stunden zuvor