Postavke privatnosti

Tödlicher blinder Fleck der KI: Visuelle Sprachmodelle verstehen "Nein" nicht, findet die Studie

Visuelle Sprachmodelle (VLMs) revolutionieren die Technologie, aber eine MIT-Studie zeigt ihren kritischen Fehler: ein grundlegendes Missverständnis der Negation. Diese Schwäche kann zu katastrophalen Fehlern in der Medizin und anderen KI-Anwendungen mit hohem Risiko führen, da Modelle Wörter wie "nein" oder "nein" ignorieren und ihre Zuverlässigkeit in Frage stellen.

Tödlicher blinder Fleck der KI: Visuelle Sprachmodelle verstehen "Nein" nicht, findet die Studie
Photo by: Domagoj Skledar/ arhiva (vlastita)

Die Welt der künstlichen Intelligenz (KI) entwickelt sich ständig weiter und bringt revolutionäre Veränderungen in verschiedenen Sektoren, von der Medizin bis zur Fertigung. Zu den vielversprechendsten Errungenschaften gehören die sogenannten visuellen Sprachmodelle (VLM), hochentwickelte Systeme, die darauf trainiert sind, Bilder und Text gleichzeitig zu verstehen. Ihre Fähigkeit, visuelle Informationen mit sprachlichen Beschreibungen zu verknüpfen, öffnet die Tür zu zahlreichen Anwendungen, darunter fortschrittliche Diagnosewerkzeuge und automatisierte Systeme zur Qualitätskontrolle. Jüngste Forschungen, einschließlich der am Massachusetts Institute of Technology (MIT) durchgeführten, werfen jedoch ein Licht auf eine kritische Schwäche dieser Modelle: ihre Unfähigkeit, Negationen korrekt zu verarbeiten. Wörter wie "nein", "nicht" oder "ohne" können zu völlig falschen Interpretationen führen, was in sensiblen Anwendungsbereichen katastrophale Folgen haben kann.


Unerwartete Fehler der künstlichen Intelligenz: Das Problem mit der Negation


Stellen Sie sich ein Szenario in einer radiologischen Praxis vor. Ein Arzt analysiert eine Röntgenaufnahme des Brustkorbs eines Patienten. Er bemerkt eine Gewebeschwellung, stellt aber fest, dass das Herz nicht vergrößert ist. Um die Diagnose zu beschleunigen und ähnliche dokumentierte Fälle zu finden, könnte sich der Radiologe auf ein visuelles Sprachmodell verlassen. Wenn das System der künstlichen Intelligenz die Anfrage falsch interpretiert und nach Fällen von Patienten sucht, die sowohl geschwollenes Gewebe als auch ein vergrößertes Herz haben, könnte die Erstdiagnose drastisch anders ausfallen. Insbesondere deutet die Kombination aus geschwollenem Gewebe und einem vergrößerten Herzen stark auf Herzprobleme hin, während das Fehlen eines vergrößerten Herzens trotz geschwollenem Gewebe die Möglichkeit einer Reihe anderer potenzieller Ursachen eröffnet. Ein solcher Interpretationsfehler, verursacht durch ein Missverständnis der Negation, kann den diagnostischen Prozess in eine völlig falsche Richtung lenken.


Forscher des MIT haben in Zusammenarbeit mit Kollegen anderer Institutionen dieses Problem systematisch untersucht. Ihre Ergebnisse deuten darauf hin, dass visuelle Sprachmodelle eine ausgeprägte Anfälligkeit für Fehler in realen Situationen zeigen, wenn sie mit negierenden Wörtern konfrontiert werden. Kumail Alhamoud, Doktorand am MIT und Hauptautor der Studie, betont: "Diese negierenden Wörter können einen sehr erheblichen Einfluss haben, und wenn wir diese Modelle blind verwenden, können wir mit katastrophalen Folgen konfrontiert werden." Diese Warnung beschränkt sich nicht nur auf die medizinische Diagnostik; sie erstreckt sich auf alle Hochrisikoanwendungen, bei denen Entscheidungen auf der Grundlage von Informationen getroffen werden, die von diesen KI-Systemen generiert werden, von autonomen Fahrzeugen bis hin zur Qualitätskontrolle in Industrieanlagen.


Wie funktionieren visuelle Sprachmodelle und wo entsteht der 'Kurzschluss'?


Visuelle Sprachmodelle (VLM) sind hochentwickelte Systeme des maschinellen Lernens, die auf riesigen Datensätzen trainiert werden, die Bilder und ihre zugehörigen textuellen Beschreibungen enthalten. Durch den Trainingsprozess lernen die Modelle, sowohl Bilder als auch Text in numerische Repräsentationen, sogenannte Vektoreinbettungen, zu kodieren. Ziel ist es, dass das Modell lernt, ähnliche Vektoren für ein Bild und seine entsprechende Beschreibung zu generieren. VLMs verwenden typischerweise zwei separate Encoder: einen für die Verarbeitung von Bildern und einen anderen für die Verarbeitung von Text. Diese Encoder werden gleichzeitig optimiert, damit ihre Ausgabevektoren für semantisch verwandte Bild-Text-Paare so ähnlich wie möglich sind.


Das Problem mit der Negation ergibt sich aus der Natur der Daten, auf denen diese Modelle trainiert werden. "Bildbeschreibungen drücken meistens aus, was sich auf den Bildern befindet – sie sind positive Etiketten. Und das ist eigentlich das ganze Problem. Niemand betrachtet ein Bild von einem Hund, der über einen Zaun springt, und beschreibt es mit 'ein Hund, der über einen Zaun springt, ohne Hubschrauber'", erklärt Marzyeh Ghassemi, außerordentliche Professorin am MIT und Seniorautorin der Forschung. Da Trainingsdatensätze überwiegend affirmative Beschreibungen enthalten, haben VLMs einfach nicht genügend Möglichkeiten zu lernen, Negation zu erkennen und korrekt zu interpretieren. Der Mangel an Beispielen, in denen explizit angegeben wird, was *nicht* auf dem Bild vorhanden ist, führt dazu, dass Modelle eine Art "Bestätigungsfehler" (affirmation bias) entwickeln.


Die Grenzen des Verständnisses testen: Wie Modelle beim Negationstest durchfielen


Um dieses Problem genauer zu untersuchen, entwickelten Wissenschaftler zwei spezifische Benchmark-Aufgaben, die darauf abzielten, die Fähigkeit von VLMs zu testen, Negation zu verstehen. In der ersten Aufgabe verwendeten sie ein großes Sprachmodell (LLM), um neue Beschreibungen für vorhandene Bilder zu generieren. Das LLM wurde gebeten, über verwandte Objekte nachzudenken, die *nicht auf dem Bild vorhanden sind*, und diese in die Beschreibung aufzunehmen. Anschließend testeten sie die VLMs, indem sie ihnen Anfragen mit negierenden Wörtern gaben und sie aufforderten, Bilder abzurufen, die bestimmte Objekte enthalten, andere jedoch nicht. Zum Beispiel könnte ein Modell beauftragt werden, Bilder mit einer Katze, aber ohne Hund zu finden.


Die zweite Aufgabe bestand aus Multiple-Choice-Fragen. Dem VLM wurde ein Bild gezeigt, und es musste die am besten geeignete Beschreibung aus einer Reihe sehr ähnlicher Optionen auswählen. Diese Beschreibungen unterschieden sich nur in Details – einige fügten einen Verweis auf ein Objekt hinzu, das nicht auf dem Bild erscheint, während andere ein Objekt negierten, das deutlich sichtbar war. Die Ergebnisse waren verheerend. Die Modelle scheiterten oft bei beiden Aufgaben. Bei Bildabrufaufgaben sank die Leistung um fast 25 %, wenn die Anfragen Negationen enthielten. Bei der Beantwortung von Multiple-Choice-Fragen erreichten die besten Modelle eine Genauigkeit von nur etwa 39 %, während einige Modelle Ergebnisse auf dem Niveau des zufälligen Ratens und sogar darunter erzielten.


Einer der Hauptgründe für solche Misserfolge liegt im bereits erwähnten "Bestätigungsfehler". VLMs neigen dazu, negierende Wörter zu ignorieren und sich ausschließlich auf die in der Anfrage genannten Objekte zu konzentrieren, unabhängig davon, ob diese Objekte bestätigt oder negiert werden. "Dies geschieht nicht nur mit Wörtern wie 'nein' und 'nicht'. Egal, wie Sie Negation oder Ausschluss ausdrücken, die Modelle werden es einfach ignorieren", betont Alhamoud. Diese Schwäche erwies sich als konsistent über alle getesteten visuellen Sprachmodelle hinweg, einschließlich einiger der bekanntesten und am weitesten verbreiteten in der Industrie.


Die Suche nach einer Lösung: Neue Datensätze und zukünftige Richtungen


Angesichts dieser Herausforderung blieben die Forscher nicht nur bei der Identifizierung des Problems stehen. Als ersten Schritt zu einer Lösung entwickelten sie neue Datensätze, die explizit negierende Wörter enthalten. Unter Verwendung eines vorhandenen Datensatzes von 10 Millionen Bild-Text-Paaren verwendeten sie ein großes Sprachmodell, um verwandte Beschreibungen vorzuschlagen, die angeben, was von den Bildern ausgeschlossen ist. Dadurch erhielten sie neue, mit Negationen angereicherte Beschreibungen. Besondere Aufmerksamkeit wurde darauf verwendet, dass diese synthetisch generierten Beschreibungen natürlich klingen, um zu vermeiden, dass VLMs, die auf solchen Daten trainiert wurden, später bei komplexeren, von Menschen geschriebenen Beschreibungen in der realen Welt versagen.


Nach der Erstellung dieser angereicherten Datensätze führte das Team einen Prozess des sogenannten Finetunings an bestehenden VLMs durch. Die Ergebnisse waren ermutigend. Das Finetuning mit den neuen Daten führte zu Leistungsverbesserungen in allen Segmenten. Die Fähigkeit der Modelle, Bilder basierend auf Anfragen mit Negation abzurufen, verbesserte sich um etwa 10 %, während die Erfolgsquote bei der Beantwortung von Multiple-Choice-Fragen um beeindruckende 30 % stieg.


"Unsere Lösung ist nicht perfekt. Wir beschreiben Datensätze nur neu, was eine Form der Datenerweiterung ist. Wir haben nicht einmal angerührt, wie diese Modelle funktionieren, aber wir hoffen, dass dies ein Signal dafür ist, dass dies ein lösbares Problem ist und dass andere unsere Lösung übernehmen und verbessern können", kommentiert Alhamoud bescheiden. Dennoch zeigt dieser Fortschritt, dass das Problem nicht unüberwindbar ist und dass eine gezielte Datenanreicherung erhebliche Verbesserungen bringen kann.


Weitere Implikationen und die Notwendigkeit der Vorsicht


Die Ergebnisse dieser Forschung, die auf der renommierten Konferenz für Computer Vision und Mustererkennung (Conference on Computer Vision and Pattern Recognition) vorgestellt werden, haben weitreichende Implikationen. Sie dienen als wichtige Warnung für Nutzer und Entwickler von visuellen Sprachmodellen. Wenn etwas so Grundlegendes wie das Verständnis von Negation beeinträchtigt ist, stellt sich die Frage nach der Zuverlässigkeit dieser Systeme in vielen bestehenden Anwendungen. Professorin Ghassemi betont: "Dies ist ein technisches Papier, aber es gibt größere Fragen, die berücksichtigt werden müssen. Wenn etwas so Grundlegendes wie Negation fehlerhaft ist, sollten wir große visuelle Sprachmodelle nicht auf viele der Arten verwenden, wie wir sie derzeit verwenden – ohne intensive Evaluierung."


Daher ist es entscheidend, dass potenzielle Nutzer dieser Technologien sich dieses bisher vielleicht nicht ausreichend beachteten Mangels bewusst sind. Vor der Implementierung von VLMs in Hochrisikoumgebungen ist es notwendig, gründliche Tests durchzuführen, einschließlich Szenarien mit Negationen, um ihre tatsächliche Zuverlässigkeit zu bewerten. Dieses Problem beschränkt sich nicht nur auf spezifische Wörter wie "nein" oder "nicht"; es betrifft allgemein die Fähigkeit von Modellen, Abwesenheit, Ausschluss oder Gegensatz zu verstehen.


Zukünftige Forschungen könnten sich auf tiefgreifendere Änderungen in der Architektur der Modelle selbst konzentrieren. Eine mögliche Richtung ist die Schulung von VLMs, textuelle und visuelle Informationen so zu verarbeiten, dass sie semantische Nuancen, einschließlich Negation, besser verstehen können. Dies könnte die Entwicklung ausgefeilterer Aufmerksamkeitsmechanismen (attention mechanisms) oder neuer Verlustfunktionen (loss functions) umfassen, die eine Fehlinterpretation von Negationen während des Trainings explizit bestrafen würden. Darüber hinaus könnte die Entwicklung zusätzlicher, spezialisierter Datensätze, die auf spezifische Anwendungsbereiche wie das Gesundheitswesen zugeschnitten sind, die Leistung und Sicherheit dieser leistungsstarken Werkzeuge weiter verbessern. Während visuelle Sprachmodelle zweifellos ein enormes Potenzial bieten, bleibt die Gewährleistung ihrer robusten und zuverlässigen Funktionsweise, insbesondere im Kontext des Verständnisses von Negation, eine zentrale Herausforderung für die wissenschaftliche Gemeinschaft.

Quelle: Massachusetts Institute of Technology

Unterkünfte in der Nähe finden

Erstellungszeitpunkt: 15 Mai, 2025

Redaktion für Wissenschaft und Technologie

Unsere Redaktion für Wissenschaft und Technologie ist aus einer langjährigen Leidenschaft für das Erforschen, Interpretieren und Vermitteln komplexer Themen an alltägliche Leser entstanden. Bei uns schreiben Mitarbeiter und freiwillige Autoren, die seit Jahrzehnten die Entwicklungen in Wissenschaft und technologischer Innovation verfolgen – von Laborentdeckungen bis zu Lösungen, die den Alltag verändern. Obwohl wir in der Mehrzahl schreiben, steht hinter jedem Text eine echte Person mit umfangreicher redaktioneller und journalistischer Erfahrung sowie großem Respekt gegenüber Fakten und überprüfbaren Informationen.

Unsere Redaktion arbeitet aus der Überzeugung heraus, dass Wissenschaft am stärksten ist, wenn sie für alle zugänglich ist. Deshalb streben wir nach Klarheit, Präzision und Verständlichkeit, ohne jene Vereinfachungen, die die Qualität des Inhalts mindern würden. Oft verbringen wir Stunden mit dem Studium von Forschungsarbeiten, technischen Dokumenten und Fachquellen, um jedes Thema so zu präsentieren, dass es den Leser interessiert und nicht belastet. In jedem Text versuchen wir, wissenschaftliche Erkenntnisse mit dem realen Leben zu verbinden und zu zeigen, wie Ideen aus Forschungszentren, Universitäten und Technologielaboren die Welt um uns herum gestalten.

Unsere langjährige journalistische Erfahrung ermöglicht uns zu erkennen, was für den Leser wirklich wichtig ist – ob es um Fortschritte in der künstlichen Intelligenz geht, medizinische Entdeckungen, Energielösungen, Weltraummissionen oder Geräte, die unseren Alltag erreichen, bevor wir uns überhaupt ihre Möglichkeiten vorstellen können. Unser Blick auf Technologie ist nicht nur technisch; uns interessieren auch die menschlichen Geschichten hinter großen Entwicklungen – Forscher, die jahrelang an Projekten arbeiten, Ingenieure, die Ideen in funktionierende Systeme verwandeln, und Visionäre, die die Grenzen des Möglichen erweitern.

Auch ein starkes Verantwortungsgefühl leitet uns bei der Arbeit. Wir möchten, dass der Leser Vertrauen in die von uns gelieferten Informationen haben kann, daher überprüfen wir Quellen, vergleichen Daten und zögern mit der Veröffentlichung, wenn etwas nicht ganz klar ist. Vertrauen entsteht langsamer, als Nachrichten geschrieben werden, doch wir glauben, dass nur solch ein Journalismus langfristig wertvoll ist.

Für uns ist Technologie mehr als Geräte, und Wissenschaft mehr als Theorie. Es sind Bereiche, die Fortschritt antreiben, die Gesellschaft prägen und neue Möglichkeiten eröffnen für alle, die verstehen wollen, wie die Welt heute funktioniert und wohin sie morgen geht. Deshalb gehen wir jedes Thema mit Ernsthaftigkeit, aber auch mit Neugier an – denn gerade Neugier öffnet die Tür zu den besten Texten.

Unsere Mission ist es, den Lesern eine Welt näherzubringen, die sich schneller denn je verändert, im Bewusstsein, dass qualitativ hochwertiger Journalismus eine Brücke sein kann zwischen Experten, Innovatoren und all jenen, die verstehen wollen, was hinter den Schlagzeilen geschieht. Darin sehen wir unsere wahre Aufgabe: das Komplexe verständlich zu machen, das Entfernte nah und das Unbekannte inspirierend.

HINWEIS FÜR UNSERE LESER
Karlobag.eu bietet Nachrichten, Analysen und Informationen zu globalen Ereignissen und Themen, die für Leser weltweit von Interesse sind. Alle veröffentlichten Informationen dienen ausschließlich zu Informationszwecken.
Wir betonen, dass wir keine Experten in den Bereichen Wissenschaft, Medizin, Finanzen oder Recht sind. Daher empfehlen wir, vor der Entscheidungsfindung auf Basis der Informationen unseres Portals, sich mit qualifizierten Experten zu beraten.
Karlobag.eu kann Links zu externen Drittanbieterseiten enthalten, einschließlich Affiliate-Links und gesponserten Inhalten. Wenn Sie über diese Links ein Produkt oder eine Dienstleistung kaufen, können wir eine Provision erhalten. Wir haben keine Kontrolle über die Inhalte oder Richtlinien dieser Seiten und übernehmen keine Verantwortung für deren Genauigkeit, Verfügbarkeit oder für Transaktionen, die Sie über diese Seiten tätigen.
Wenn wir Informationen über Veranstaltungen oder Ticketverkäufe veröffentlichen, beachten Sie bitte, dass wir weder direkt noch über Vermittler Tickets verkaufen. Unser Portal informiert ausschließlich über Veranstaltungen und Kaufmöglichkeiten über externe Verkaufsplattformen. Wir verbinden Leser mit Partnern, die Ticketverkaufsdienste anbieten, garantieren jedoch nicht deren Verfügbarkeit, Preise oder Kaufbedingungen. Alle Ticketinformationen werden von Dritten bezogen und können ohne vorherige Ankündigung Änderungen unterliegen. Wir empfehlen, die Verkaufsbedingungen beim gewählten Partner vor einem Kauf sorgfältig zu überprüfen, da das Portal Karlobag.eu keine Verantwortung für Transaktionen oder Verkaufsbedingungen von Tickets übernimmt.
Alle Informationen auf unserem Portal können ohne vorherige Ankündigung geändert werden. Durch die Nutzung dieses Portals stimmen Sie zu, dass Sie die Inhalte auf eigenes Risiko lesen.