In der Welt der generativen künstlichen Intelligenz, wo sich das Rennen um größere, schnellere und intelligentere Modelle unaufhörlich beschleunigt, haben Forscher des renommierten Instituts MIT (Massachusetts Institute of Technology) soeben eine Lösung vorgestellt, die die Spielregeln grundlegend ändern könnte. Ihre neue Methode, die diese Woche der wissenschaftlichen Gemeinschaft vorgestellt wurde, konzentriert sich nicht auf die bloße Vergrößerung der Modelle, sondern auf eine drastisch intelligentere Nutzung der Ressourcen, über die diese Modelle bereits verfügen.
Das Problem, mit dem die Industrie bisher konfrontiert war, war ziemlich bizarr, aber real: Die meisten großen Sprachmodelle (LLM) gehen jedes Problem mit der gleichen "Menge" an Denken an. Egal, ob der Benutzer fragt "Wie viel ist 2 plus 2?" oder eine komplexe Analyse der geopolitischen Situation im 19. Jahrhundert sucht, weisen Standardmodelle oft ein festes Rechenbudget zu. Dies führt zu einer enormen Energieverschwendung bei trivialen Anfragen, während gleichzeitig komplexe Probleme nicht genügend "kognitive" Aufmerksamkeit erhalten, die für eine genaue Lösung erforderlich ist.
Genau hier tritt das Team des MIT auf den Plan mit seinem revolutionären Ansatz namens "instanzadaptive Skalierung" (instance-adaptive scaling). Ihre Methode ermöglicht der künstlichen Intelligenz etwas, das Menschen instinktiv tun – die Fähigkeit, die Schwierigkeit eines Problems vor und während des Lösungsprozesses selbst einzuschätzen und den erforderlichen Aufwand zur Erreichung der richtigen Antwort dynamisch anzupassen.
Warum ist "Denken" teuer?
Um die Bedeutung dieser Entdeckung zu verstehen, müssen wir uns ansehen, wie moderne Sprachmodelle funktionieren. Um schwierigere Fragen zu beantworten, haben Forscher kürzlich begonnen, eine Technik anzuwenden, die als "Inferenzzeit-Skalierung" (inference-time scaling) bekannt ist. Diese Technik ermöglicht es dem Modell, mehr Zeit damit zu verbringen, potenzielle Lösungen zu generieren, verschiedene Schlussfolgerungswege oder Gedankenketten (chain-of-thought) zu erkunden, bevor es eine endgültige Antwort liefert.
Bisherige Ansätze waren jedoch starr. Sie legten für jedes Problem ein festes Rechenbudget fest, unabhängig von dessen Komplexität. Das bedeutete, dass das Modell wertvolle Ressourcen der Grafikprozessoren (GPU) für einfache Fragen verschwenden könnte, die eine sofortige Antwort erfordern, oder, noch schlimmer, nicht genügend Ressourcen hätte, um Probleme zu bewältigen, die tiefe Logik und mehrere Überprüfungsschritte erfordern.
Der neue Algorithmus, den die Forscher des MIT entwickelt haben, ermöglicht es dem Modell, sein Budget dynamisch anzupassen. In der Praxis bedeutet dies, dass das Modell "auf die Bremse treten" kann, die Schwierigkeit der Frage und die Wahrscheinlichkeit, dass die aktuelle Denkrichtung zur richtigen Lösung führt, bewerten kann, und auf dieser Grundlage entscheiden kann, ob mehr Aufwand investiert werden muss oder ob die Antwort bereits fertig ist.
Revolutionäre Ergebnisse: Weniger ist manchmal mehr
Die Testergebnisse dieser Methode sind beeindruckend. Das Forschungsteam entdeckte, dass ihr Ansatz großen Sprachmodellen ermöglicht, sogar 50 Prozent weniger Rechenressourcen im Vergleich zu bestehenden Methoden zu nutzen, und dabei das gleiche Genauigkeitsniveau über ein breites Spektrum von Fragen unterschiedlicher Schwierigkeitsgrade beizubehalten.
Vielleicht eine noch bedeutendere Entdeckung ist die Tatsache, dass diese Methode die Macht der künstlichen Intelligenz demokratisiert. Die Forschung hat nämlich gezeigt, dass kleinere, ressourcenärmere Modelle, wenn sie mit diesem adaptiven Algorithmus ausgestattet sind, mit der Leistung deutlich größerer und teurerer Modelle bei komplexen Problemen mithalten oder diese sogar übertreffen können. Dies öffnet die Tür für die Anwendung fortschrittlicher KI-Technologie auf Geräten mit begrenzten Ressourcen, wie Smartphones oder Laptops, ohne die Notwendigkeit einer ständigen Verbindung zu massiven Rechenzentren.
Wie funktioniert "digitale Metakognition"?
Der Kern dieses Systems liegt in der Fähigkeit des Modells, zu "wissen, was es nicht weiß". Navid Azizan, Professor am Fachbereich Maschinenbau und am Institut für Daten, Systeme und Gesellschaft (IDSS) des MIT und leitender Autor der Studie, hebt die Bedeutung dieses Konzepts hervor.
"Die Rechenkosten für Inferenz sind schnell zu einem Hauptengpass für Anbieter der fortschrittlichsten Modelle geworden, die aktiv versuchen, Wege zu finden, um die Recheneffizienz pro Benutzeranfrage zu verbessern", erklärt Azizan. "Zum Beispiel betont die kürzliche Veröffentlichung des Modells GPT-5.1 die Effizienz des Ansatzes der 'adaptiven Inferenz', den unsere Arbeit vorschlägt. Indem wir Modellen ermöglichen, ihre Wissensgrenzen zu erkennen, können wir ihnen erlauben, mehr Rechenleistung für die schwierigsten Probleme und vielversprechendsten Lösungswege aufzuwenden, und deutlich weniger Token für die einfachen. Das macht den Inferenzprozess zuverlässiger und weitaus effizienter."
Technisch gesehen verwendet das Framework eine Komponente, die als Process Reward Model (PRM) oder Prozessbelohnungsmodell bekannt ist. Dieses "Überwachungs"-Modell bewertet jeden potenziellen Schritt bei der Problemlösung. Stellen Sie es sich als einen strengen Lehrer vor, der einen Schüler beobachtet, während er eine Mathematikaufgabe löst. Das PRM bewertet die Schwierigkeit der Frage und hilft dem Hauptmodell (LLM) zu entscheiden, wie viele Ressourcen zugewiesen werden müssen.
Lösung des Problems der Selbstüberschätzung
Eine der wichtigsten Herausforderungen, mit denen sich die Forscher konfrontiert sahen, war die Neigung bestehender Belohnungsmodelle (PRM), zu optimistisch zu sein. Oft überschätzten sie die Wahrscheinlichkeit, dass ein bestimmter Schritt in der Lösung korrekt ist, was das System dazu veranlasste, den Prozess des "Denkens" vorzeitig abzuschließen und eine falsche Antwort zu liefern.
"Hätten wir einfach den aktuellen PRMs vertraut, die oft die Erfolgschance überschätzen, hätte unser System das Rechenbudget zu aggressiv reduziert", erklärt Young-Jin Park, Doktorand am MIT und Hauptautor der Studie. "Deshalb mussten wir zuerst einen Weg finden, diese Modelle besser zu kalibrieren, um die Inferenzzeit-Skalierung effizienter und zuverlässiger zu machen."
Die Lösung wurde in einer neuen Kalibrierungsmethode gefunden. Anstatt dass das PRM eine einfache binäre Bewertung (gut/schlecht) oder einen einzelnen numerischen Wert liefert, brachten die Forscher ihm bei, einen Wahrscheinlichkeitsbereich zu generieren. Auf diese Weise erhält das System ein realistischeres Bild der Unsicherheit. Wenn das Modell "sicher" ist, dass es auf dem richtigen Weg ist, reduziert es die Anzahl der alternativen Szenarien, die es untersucht, und spart Ressourcen. Wenn es unsicher ist, erweitert es die Suche.
Hao Wang, Forscher im MIT-IBM Watson AI Lab und Mitglied des Teams, zieht eine interessante Parallele zum menschlichen Denken: "Das ist eigentlich die Art und Weise, wie Menschen Probleme lösen. Wir denken uns einige Teillösungen aus und entscheiden dann: Sollte ich mit einer davon weitermachen, oder anhalten und überarbeiten, oder sogar zu einem vorherigen Schritt zurückkehren und die Problemlösung von dort aus fortsetzen?"
Die Zukunft von KI-Agenten und autonomen Systemen
Diese Forschung, die diese Woche, Anfang Dezember 2025, auf der renommierten Konferenz Neural Information Processing Systems (NeurIPS) vorgestellt wird, hat Auswirkungen, die weit über die akademische Gemeinschaft hinausgehen. Die Reduzierung des Energieverbrauchs generativer KI-Systeme ist entscheidend für die Nachhaltigkeit der Industrie, insbesondere angesichts der wachsenden Besorgnis über den CO2-Fußabdruck großer Rechenzentren.
Neben dem ökologischen Aspekt öffnet diese Technik die Türen für den Einsatz von LLMs in Situationen mit hohem Risiko und Zeitkritikalität. Kristjan Greenewald, Forscher im MIT-IBM Watson AI Lab, hebt die dynamische Natur ihrer Lösung hervor: "Die Schönheit unseres Ansatzes liegt darin, dass diese Anpassung spontan geschieht, während das Problem gelöst wird, anstatt dass sie auf einmal zu Beginn des Prozesses stattfindet."
Mit Blick auf die Zukunft planen die Forscher, diese Technik auf andere Bereiche anzuwenden, wie die automatische Generierung von Programmcode und die Entwicklung autonomer KI-Agenten. Die Kalibrierung von Belohnungsmodellen (PRM) könnte auch Anwendung im bestärkenden Lernen (reinforcement learning) und der Feinabstimmung von Modellen finden.
Akash Srivastava, Direktor und Chefarchitekt für Core AI bei IBM Software, der nicht direkt an der Arbeit beteiligt war, aber deren Entwicklung verfolgt, betont das transformative Potenzial dieser Technologie für die Arbeitskräfte der Zukunft:
"Menschliche Angestellte lernen bei der Arbeit — einige Geschäftsführer haben sogar als Praktikanten angefangen — aber die heutigen KI-Agenten bleiben meist statische Stücke wahrscheinlichkeitstheoretischer Software. Arbeiten wie dieser Artikel sind ein wichtiger Schritt, um das zu ändern: Agenten zu helfen, zu erkennen, was sie nicht wissen, und Mechanismen für kontinuierliche Selbstverbesserung aufzubauen. Diese Fähigkeiten sind entscheidend, wenn wir Agenten wollen, die sicher arbeiten, sich an neue Situationen anpassen und konsistente Ergebnisse in großem Maßstab liefern können."
Zusammenarbeit von Giganten für eine intelligentere Zukunft
Es ist wichtig zu beachten, dass diese Forschung das Ergebnis der Zusammenarbeit einiger der stärksten Namen in der Technologiewelt und der Akademie ist. Das Projekt wurde unter anderem vom MIT-IBM Watson AI Lab, dem MIT-Amazon Science Hub, dem MIT-Google Program for Computing Innovation und dem Unternehmen MathWorks finanziert.
In einem Moment, in dem die Welt mit der Frage nach den Grenzen des Wachstums der künstlichen Intelligenz konfrontiert ist, beweist das MIT-Team, dass die Lösung nicht immer in einem "größeren Hammer" liegt, sondern in einem präziseren Schlag. Durch die Einführung eines Elements der Metakognition – das Nachdenken über das eigene Denken – wird künstliche Intelligenz nicht nur effizienter, sondern auch ähnlicher den biologischen Systemen, die sie nachzuahmen versucht.
Für Endbenutzer könnte das bald schnellere Antworten auf einfache Fragen, tiefere und genauere Analysen für komplexe Anfragen und KI-Assistenten auf unseren Mobiltelefonen bedeuten, die den Akku nicht in wenigen Minuten entleeren. In einer Welt, in der Rechenleistung die neue Währung ist, könnte die Fähigkeit, diese Währung zu sparen, die wertvollste Innovation dieses Jahres sein.
Unterkünfte in der Nähe finden
Erstellungszeitpunkt: 12 Stunden zuvor