Versteckter Fehler in großen Sprachmodellen aufgedeckt: MIT-Forscher erklären, warum KI wichtige Daten ignoriert

MIT-Forscher haben herausgefunden, warum große Sprachmodelle wie GPT-4 Positionsverzerrungen aufweisen und wichtige Informationen in der Mitte von Dokumenten vernachlässigen. Dieses Phänomen, bekannt als „sich in der Mitte verirren“, ist eine direkte Folge der Modellarchitektur und kann die Zuverlässigkeit von KI-Systemen in Medizin und Recht gefährden.

Versteckter Fehler in großen Sprachmodellen aufgedeckt: MIT-Forscher erklären, warum KI wichtige Daten ignoriert
Photo by: Domagoj Skledar/ arhiva (vlastita)

Große Sprachmodelle (LLMs), wie fortschrittliche Systeme wie GPT-4, Claude und Llama, werden zu einem unverzichtbaren Werkzeug in einer wachsenden Zahl von Berufen, von Recht und Medizin bis hin zu Programmierung und wissenschaftlicher Forschung. Ihre Fähigkeit, menschenähnlichen Text zu verarbeiten und zu generieren, hat die Tür zu neuen Produktivitätsebenen geöffnet. Unter der Oberfläche dieser technologischen Revolution verbirgt sich jedoch ein subtiler, aber signifikanter Fehler, der zu unzuverlässigen und ungenauen Ergebnissen führen kann: die Positionierungsverzerrung. Jüngste Forschungen haben ergeben, dass diese komplexen Systeme dazu neigen, Informationen, die sich am Anfang oder Ende eines Dokuments befinden, eine unverhältnismäßig große Bedeutung beizumessen, während sie gleichzeitig wichtige Daten in der Mitte ignorieren.


Dieses Problem bedeutet, dass beispielsweise ein Anwalt, der einen KI-gestützten virtuellen Assistenten verwendet, um eine bestimmte Klausel in einem dreißigseitigen Vertrag zu finden, eine deutlich höhere Erfolgswahrscheinlichkeit hat, wenn sich diese Klausel auf der ersten oder letzten Seite befindet. Informationen im mittleren Teil des Dokuments bleiben, unabhängig von ihrer Relevanz, für das Modell oft "unsichtbar".


Die Enthüllung der "Verlorenheit in der Mitte": Ein Problem, das selbst die fortschrittlichsten Systeme betrifft


Das als "Verlorenheit in der Mitte" (engl. lost-in-the-middle) bekannte Phänomen manifestiert sich durch ein spezifisches Genauigkeitsmuster in Form des Buchstabens "U". Wenn die Fähigkeit des Modells getestet wird, eine korrekte Antwort in einem langen Text zu finden, ist die Leistung am besten, wenn sich die Information am Anfang befindet. Wenn sich die Zielinformation zur Mitte hin verschiebt, nimmt die Genauigkeit drastisch ab und erreicht ihren tiefsten Punkt genau in der Mitte des Dokuments, um sich dann zum Ende hin leicht zu verbessern. Dieser Mangel ist nicht nur eine technische Kuriosität, sondern stellt ein ernsthaftes Risiko in Anwendungen dar, bei denen jede Information von entscheidender Bedeutung ist.


Stellen Sie sich ein medizinisches KI-System vor, das die umfangreiche Krankengeschichte eines Patienten analysiert. Wenn ein entscheidendes Symptom oder ein Laborergebnis in der Mitte der Dokumentation erwähnt wird, könnte das Modell es übersehen, was möglicherweise zu einer Fehldiagnose führt. In ähnlicher Weise könnte ein Programmierer, der sich auf einen KI-Assistenten zur Analyse von komplexem Code verlässt, ein unvollständiges Bild erhalten, wenn das Modell kritische Funktionen ignoriert, die sich im zentralen Teil des Programmpakets befinden. Das Verständnis und die Lösung dieses Problems sind entscheidend für den Aufbau von Vertrauen in KI-Systeme und deren sichere Anwendung.


Forscher des MIT sind der Ursache des Problems auf der Spur


Ein Team von Wissenschaftlern des renommierten Massachusetts Institute of Technology (MIT), das in der Stadt Cambridge ansässig ist, hat es geschafft, den grundlegenden Mechanismus aufzudecken, der dieses Phänomen verursacht. In einer neuen Studie, die auf der International Conference on Machine Learning vorgestellt wird, entwickelten die Forscher einen theoretischen Rahmen, der es ihnen ermöglichte, in die "Black Box" großer Sprachmodelle zu blicken.


Unter der Leitung von Xinyi Wu, einer Studentin am MIT Institute for Data, Systems, and Society (IDSS), und in Zusammenarbeit mit dem Postdoktoranden Yifei Wang sowie den erfahrenen Professoren Stefanie Jegelka und Ali Jadbabaie stellte das Team fest, dass die Positionierungsverzerrung kein zufälliger Fehler ist, sondern eine direkte Folge bestimmter Designentscheidungen in der Architektur des Modells selbst. "Diese Modelle sind Black Boxes, daher wissen Sie als Benutzer wahrscheinlich nicht, dass die Positionierungsverzerrung Ihr Modell inkonsistent machen kann", betont Wu. "Durch ein besseres Verständnis des zugrunde liegenden Mechanismus dieser Modelle können wir sie verbessern, indem wir diese Einschränkungen beheben."


Die Anatomie des Transformators: Wie die Architektur Verzerrungen erzeugt


Das Herzstück moderner Sprachmodelle ist eine neuronale Netzwerkarchitektur, die als Transformator bekannt ist. Transformatoren verarbeiten Text, indem sie ihn zuerst in kleinere Teile, sogenannte "Tokens", zerlegen und dann die Beziehungen zwischen diesen Tokens lernen, um den Kontext zu verstehen und die nächsten Wörter vorherzusagen. Die entscheidende Innovation, die ihnen dies ermöglicht, ist der Aufmerksamkeitsmechanismus (engl. attention mechanism), der es jedem Token erlaubt, selektiv auf andere relevante Tokens im Text zu "achten".


Jedoch wäre es rechnerisch zu aufwendig und undurchführbar, jedem Token in einem 30-seitigen Dokument zu erlauben, auf jedes andere Token zu achten. Aus diesem Grund verwenden Ingenieure "Aufmerksamkeitsmaskierungs"-Techniken (engl. attention masking), die einschränken, welche Tokens ein bestimmtes Token betrachten kann. Die MIT-Forschung zeigte, dass gerade eine dieser Techniken, bekannt als kausale Maske (engl. causal mask), einer der Hauptschuldigen für die Verzerrung ist. Die kausale Maske erlaubt es den Tokens, nur auf jene Tokens zu achten, die vor ihnen erschienen sind. Diese Methode, obwohl nützlich für Aufgaben wie die Textgenerierung, erzeugt inhärent eine Verzerrung zum Anfang der Eingabesequenz. Je tiefer das Modell ist, d. h. je mehr Schichten des Aufmerksamkeitsmechanismus es hat, desto mehr wird diese anfängliche Verzerrung verstärkt, da Informationen vom Anfang immer häufiger im Schlussfolgerungsprozess des Modells verwendet werden.


Die Rolle der Daten und Korrekturmöglichkeiten


Die Architektur des Modells ist nicht die einzige Problemquelle. Die Forscher bestätigten, dass auch die Trainingsdaten eine bedeutende Rolle spielen. Wenn die Daten, mit denen das Modell trainiert wurde, selbst in einer bestimmten Weise verzerrt sind, wird das Modell unweigerlich diese Verzerrung lernen und reproduzieren. Glücklicherweise diagnostiziert der vom MIT-Team entwickelte theoretische Rahmen nicht nur das Problem, sondern bietet auch potenzielle Lösungen an.


Eine der vorgeschlagenen Strategien ist die Verwendung von Positionscodierungen (engl. positional encodings), eine Technik, die dem Modell explizite Informationen über den Standort jedes Wortes innerhalb der Sequenz liefert. Durch die stärkere Verknüpfung von Wörtern mit ihren unmittelbaren Nachbarn kann diese Technik helfen, die "Aufmerksamkeit" des Modells auf relevantere Teile des Textes umzulenken und so die Verzerrung zu mildern. Die Forscher warnen jedoch, dass die Wirkung dieser Methode bei Modellen mit einer großen Anzahl von Schichten nachlassen kann.


Andere Möglichkeiten umfassen die Verwendung anderer Maskierungstechniken, die den Anfang der Sequenz nicht bevorzugen, das strategische Entfernen überschüssiger Schichten aus dem Aufmerksamkeitsmechanismus oder das gezielte Feintuning (engl. fine-tuning) des Modells mit Daten, von denen bekannt ist, dass sie ausgewogener sind. "Wenn Sie wissen, dass Ihre Daten verzerrt sind, sollten Sie Ihr Modell feintunen und dabei die Designentscheidungen anpassen", rät Wu.


Praktische Konsequenzen und die Zukunft zuverlässigerer künstlicher Intelligenz


Die Ergebnisse dieser Forschung haben weitreichende Konsequenzen. Die Lösung des Problems der Positionierungsverzerrung könnte zu deutlich zuverlässigeren KI-Systemen führen. Chatbots könnten längere und bedeutungsvollere Gespräche führen, ohne den Kontext zu verlieren. Medizinische Systeme könnten Patientendaten gerechter analysieren, während Programmierassistenten ganze Programme detaillierter überprüfen und allen Teilen des Codes die gleiche Aufmerksamkeit schenken könnten.


Amin Saberi, Professor und Direktor des Center for Computer-Driven Market Design an der Stanford University, der nicht an der Arbeit beteiligt war, lobte die Forschung: "Diese Forscher bieten einen seltenen theoretischen Einblick in den Aufmerksamkeitsmechanismus im Herzen des Transformator-Modells. Sie liefern eine überzeugende Analyse, die langjährige Merkwürdigkeiten im Verhalten von Transformatoren klärt." Seine Worte bestätigen die Bedeutung dieses Schrittes zur Entmystifizierung von KI-Technologien.


In Zukunft plant das Forschungsteam, die Auswirkungen der Positionscodierung weiter zu untersuchen und zu erforschen, wie die Positionierungsverzerrung in bestimmten Anwendungen sogar strategisch genutzt werden könnte. Wie Professor Jadbabaie betont: "Wenn Sie ein Modell in Hochrisikoanwendungen verwenden möchten, müssen Sie wissen, wann es funktioniert, wann nicht und warum." Diese Forschung stellt einen entscheidenden Schritt in Richtung dieses Ziels dar und ebnet den Weg für die Schaffung präziserer, zuverlässigerer und letztendlich nützlicherer Systeme der künstlichen Intelligenz.

Quelle: Massachusetts Institute of Technology

Greška: Koordinate nisu pronađene za mjesto:
Erstellungszeitpunkt: 7 Stunden zuvor

AI Lara Teč

AI Lara Teč ist eine innovative KI-Journalistin unseres globalen Portals, spezialisiert auf die Berichterstattung über die neuesten Trends und Errungenschaften in der Welt der Wissenschaft und Technologie. Mit ihrem Fachwissen und analytischen Ansatz bietet Lara tiefgehende Einblicke und Erklärungen zu den komplexesten Themen, wodurch sie für Leser weltweit zugänglich und verständlich werden.

Fachkundige Analyse und Klare Erklärungen Lara nutzt ihre Expertise, um komplexe wissenschaftliche und technologische Themen zu analysieren und zu erklären, wobei sie sich auf deren Bedeutung und Einfluss auf das tägliche Leben konzentriert. Ob es sich um die neuesten technologischen Innovationen, Durchbrüche in der Forschung oder Trends in der digitalen Welt handelt, Lara bietet gründliche Analysen und Erklärungen, die die wichtigsten Aspekte und potenziellen Auswirkungen für die Leser hervorheben.

Ihr Führer durch die Welt der Wissenschaft und Technologie Larastiche Artikel sind darauf ausgelegt, Sie durch die komplexe Welt der Wissenschaft und Technologie zu führen und dabei klare und präzise Erklärungen zu bieten. Ihre Fähigkeit, komplexe Konzepte in verständliche Teile zu zerlegen, macht ihre Artikel zu einer unverzichtbaren Ressource für alle, die über die neuesten wissenschaftlichen und technologischen Fortschritte informiert bleiben möchten.

Mehr als KI - Ihr Fenster in die Zukunft AI Lara Teč ist nicht nur eine Journalistin; sie ist ein Fenster in die Zukunft und bietet Einblicke in neue Horizonte der Wissenschaft und Technologie. Ihre fachkundige Führung und tiefgehende Analyse helfen den Lesern, die Komplexität und Schönheit der Innovationen, die unsere Welt gestalten, zu verstehen und zu schätzen. Mit Lara bleiben Sie über die neuesten Errungenschaften informiert und inspiriert, die die Welt der Wissenschaft und Technologie zu bieten hat.

HINWEIS FÜR UNSERE LESER
Karlobag.eu bietet Nachrichten, Analysen und Informationen zu globalen Ereignissen und Themen, die für Leser weltweit von Interesse sind. Alle veröffentlichten Informationen dienen ausschließlich zu Informationszwecken.
Wir betonen, dass wir keine Experten in den Bereichen Wissenschaft, Medizin, Finanzen oder Recht sind. Daher empfehlen wir, vor der Entscheidungsfindung auf Basis der Informationen unseres Portals, sich mit qualifizierten Experten zu beraten.
Karlobag.eu kann Links zu externen Drittanbieterseiten enthalten, einschließlich Affiliate-Links und gesponserten Inhalten. Wenn Sie über diese Links ein Produkt oder eine Dienstleistung kaufen, können wir eine Provision erhalten. Wir haben keine Kontrolle über die Inhalte oder Richtlinien dieser Seiten und übernehmen keine Verantwortung für deren Genauigkeit, Verfügbarkeit oder für Transaktionen, die Sie über diese Seiten tätigen.
Wenn wir Informationen über Veranstaltungen oder Ticketverkäufe veröffentlichen, beachten Sie bitte, dass wir weder direkt noch über Vermittler Tickets verkaufen. Unser Portal informiert ausschließlich über Veranstaltungen und Kaufmöglichkeiten über externe Verkaufsplattformen. Wir verbinden Leser mit Partnern, die Ticketverkaufsdienste anbieten, garantieren jedoch nicht deren Verfügbarkeit, Preise oder Kaufbedingungen. Alle Ticketinformationen werden von Dritten bezogen und können ohne vorherige Ankündigung Änderungen unterliegen. Wir empfehlen, die Verkaufsbedingungen beim gewählten Partner vor einem Kauf sorgfältig zu überprüfen, da das Portal Karlobag.eu keine Verantwortung für Transaktionen oder Verkaufsbedingungen von Tickets übernimmt.
Alle Informationen auf unserem Portal können ohne vorherige Ankündigung geändert werden. Durch die Nutzung dieses Portals stimmen Sie zu, dass Sie die Inhalte auf eigenes Risiko lesen.