Postavke privatnosti

Śmiertelny martwy punkt sztucznej inteligencji: modele wizualno-językowe nie rozumieją „nie”, jak wynika z badań

Modele wizualno-językowe (VLM) rewolucjonizują technologię, ale badanie mit ujawnia ich krytyczną wadę: fundamentalne niezrozumienie negacji. Ta słabość może prowadzić do katastrofalnych błędów w medycynie i innych aplikacjach AI wysokiego ryzyka, ponieważ modele ignorują słowa takie jak „nie” lub „nie”, kwestionując ich niezawodność.

Śmiertelny martwy punkt sztucznej inteligencji: modele wizualno-językowe nie rozumieją „nie”, jak wynika z badań
Photo by: Domagoj Skledar/ arhiva (vlastita)

Świat sztucznej inteligencji (SI) nieustannie się rozwija, przynosząc rewolucyjne zmiany w różnych sektorach, od medycyny po produkcję. Wśród najbardziej obiecujących osiągnięć znajdują się tak zwane modele wizualno-językowe (VLM), zaawansowane systemy szkolone do jednoczesnego rozumienia obrazów i tekstu. Ich zdolność do łączenia informacji wizualnych z opisami językowymi otwiera drzwi do licznych zastosowań, w tym zaawansowanych narzędzi diagnostycznych i zautomatyzowanych systemów kontroli jakości. Jednakże, ostatnie badania, w tym te przeprowadzone na Massachusetts Institute of Technology (MIT), rzucają światło na krytyczną słabość tych modeli: ich niezdolność do poprawnego przetwarzania negacji. Słowa takie jak "nie", "ani" lub "bez" mogą prowadzić do całkowicie błędnych interpretacji, co w wrażliwych obszarach zastosowań może mieć katastrofalne skutki.


Nieoczekiwane uchybienia sztucznej inteligencji: Problem z negacją


Wyobraźmy sobie scenariusz w gabinecie radiologicznym. Lekarz analizuje zdjęcie rentgenowskie klatki piersiowej pacjenta. Zauważa obrzęk tkanki, ale stwierdza, że serce nie jest powiększone. W celu przyspieszenia postawienia diagnozy i znalezienia podobnych zarejestrowanych przypadków, radiolog mógłby polegać na modelu wizualno-językowym. Jeśli system sztucznej inteligencji błędnie zinterpretuje zapytanie i przeszuka przypadki pacjentów, którzy mają zarówno obrzęk tkanki, jak i powiększone serce, wstępna diagnoza mogłaby być drastycznie inna. Mianowicie, połączenie obrzęku tkanki i powiększonego serca silnie wskazuje na problemy kardiologiczne, podczas gdy brak powiększonego serca, pomimo obrzęku tkanki, otwiera możliwość szeregu innych potencjalnych przyczyn. Taki błąd w interpretacji, spowodowany niezrozumieniem negacji, może skierować proces diagnostyczny w zupełnie złym kierunku.


Naukowcy z MIT, we współpracy z kolegami z innych instytucji, systematycznie badali ten problem. Ich odkrycia wskazują, że modele wizualno-językowe wykazują wyraźną skłonność do błędów w rzeczywistych sytuacjach, gdy spotykają się ze słowami negującymi. Kumail Alhamoud, doktorant na MIT i główny autor badania, podkreśla: "Te słowa negujące mogą mieć bardzo znaczący wpływ, a jeśli ślepo będziemy używać tych modeli, możemy spotkać się z katastrofalnymi konsekwencjami." To ostrzeżenie nie ogranicza się tylko do diagnostyki medycznej; rozciąga się na wszystkie zastosowania wysokiego ryzyka, gdzie decyzje podejmowane są na podstawie informacji generowanych przez te systemy SI, od pojazdów autonomicznych po kontrolę jakości w zakładach przemysłowych.


Jak działają modele wizualno-językowe i gdzie powstaje 'zwarcie'?


Modele wizualno-językowe (VLM) to zaawansowane systemy uczenia maszynowego, które są trenowane na ogromnych zbiorach danych zawierających obrazy i odpowiadające im opisy tekstowe. Poprzez proces treningu, modele uczą się kodować zarówno obrazy, jak i tekst w reprezentacje numeryczne, znane jako osadzenia wektorowe. Celem jest, aby model nauczył się generować podobne wektory dla obrazu i jego odpowiadającego opisu. VLM zazwyczaj wykorzystują dwa oddzielne kodery: jeden do przetwarzania obrazów, a drugi do przetwarzania tekstu. Te kodery są jednocześnie optymalizowane, aby ich wektory wyjściowe były jak najbardziej podobne dla semantycznie powiązanych par obraz-tekst.


Problem z negacją wynika z samej natury danych, na których te modele są trenowane. "Opisy obrazów głównie wyrażają to, co znajduje się na obrazach – są to etykiety pozytywne. I to jest właściwie cały problem. Nikt nie patrzy na obraz psa przeskakującego przez płot i nie opisuje go jako 'pies przeskakujący przez płot, bez helikoptera'", wyjaśnia Marzyeh Ghassemi, profesor nadzwyczajny na MIT i starszy autor badania. Ponieważ zbiory danych treningowych dominująco zawierają opisy afirmatywne, VLM po prostu nie mają wystarczająco dużo okazji, aby nauczyć się rozpoznawać i poprawnie interpretować negację. Brak przykładów, w których jawnie stwierdza się, czego *nie ma* na obrazie, prowadzi do tego, że modele rozwijają rodzaj "stronniczości potwierdzania" (affirmation bias).


Testowanie granic rozumienia: Jak modele oblały egzamin z negacji


Aby głębiej zbadać ten problem, naukowcy opracowali dwa specyficzne zadania referencyjne (benchmark tasks) mające na celu przetestowanie zdolności VLM do rozumienia negacji. W pierwszym zadaniu wykorzystali duży model językowy (LLM) do generowania nowych opisów dla istniejących obrazów. Od LLM poproszono, aby pomyślał o powiązanych obiektach, których *nie ma* na obrazie i uwzględnił je w opisie. Następnie przetestowali VLM, zadając im zapytania ze słowami negującymi, prosząc o pobranie obrazów, które zawierają określone obiekty, ale nie inne. Na przykład model mógł zostać poproszony o znalezienie obrazów z kotem, ale bez psa.


Drugie zadanie składało się z pytań wielokrotnego wyboru. VLM pokazano obraz i musiał wybrać najbardziej odpowiedni opis spośród szeregu bardzo podobnych opcji. Te opisy różniły się tylko szczegółami – niektóre dodawały odniesienie do obiektu, który nie pojawia się na obrazie, podczas gdy inne negowały obiekt, który był wyraźnie widoczny. Wyniki były druzgocące. Modele często zawodziły w obu zadaniach. W zadaniach wyszukiwania obrazów wydajność spadła o prawie 25%, gdy zapytania zawierały negacje. Odpowiadając na pytania wielokrotnego wyboru, najlepsze modele osiągnęły dokładność zaledwie około 39%, podczas gdy niektóre modele miały wyniki na poziomie losowego zgadywania, a nawet poniżej.


Jednym z kluczowych powodów takich niepowodzeń jest wspomniana "stronniczość potwierdzania". VLM mają tendencję do ignorowania słów negujących i koncentrowania się wyłącznie na obiektach wymienionych w zapytaniu, niezależnie od tego, czy obiekty te są potwierdzone, czy zanegowane. "To nie dzieje się tylko ze słowami takimi jak 'nie' i 'ani'. Bez względu na to, jak wyrazisz negację lub wykluczenie, modele po prostu to zignorują", podkreśla Alhamoud. Ta słabość okazała się spójna we wszystkich testowanych modelach wizualno-językowych, w tym w niektórych z najbardziej znanych i najczęściej używanych w przemyśle.


Poszukiwanie rozwiązania: Nowe zbiory danych i przyszłe kierunki


W obliczu tego wyzwania naukowcy nie poprzestali jedynie na identyfikacji problemu. Jako pierwszy krok w kierunku rozwiązania opracowali nowe zbiory danych, które jawnie zawierają słowa negujące. Korzystając z istniejącego zbioru danych zawierającego 10 milionów par obraz-opis tekstowy, użyli dużego modelu językowego do zaproponowania powiązanych opisów, które określają, co jest wykluczone z obrazów. W ten sposób uzyskali nowe opisy wzbogacone o negacje. Szczególną uwagę zwrócono na to, aby te syntetycznie generowane opisy brzmiały naturalnie, aby uniknąć sytuacji, w której VLM trenowane na takich danych później zawiodłyby w konfrontacji z bardziej złożonymi, pisanymi przez ludzi opisami w świecie rzeczywistym.


Po utworzeniu tych wzbogaconych zbiorów danych zespół przeprowadził proces tzw. dostrajania (finetuning) istniejących VLM. Wyniki były zachęcające. Dostrajanie z nowymi danymi doprowadziło do poprawy wydajności we wszystkich segmentach. Zdolność modeli do pobierania obrazów na podstawie zapytań z negacją poprawiła się o około 10%, podczas gdy skuteczność w zadaniu odpowiadania na pytania wielokrotnego wyboru wzrosła o imponujące 30%.


"Nasze rozwiązanie nie jest doskonałe. My tylko ponownie opisujemy zbiory danych, co jest formą augmentacji danych. Nawet nie dotknęliśmy sposobu działania tych modeli, ale mamy nadzieję, że jest to sygnał, że jest to problem możliwy do rozwiązania i że inni mogą przejąć nasze rozwiązanie i je ulepszyć", skromnie komentuje Alhamoud. Niemniej jednak ten postęp pokazuje, że problem nie jest nie do pokonania i że ukierunkowane wzbogacanie danych może przynieść znaczące ulepszenia.


Szersze implikacje i konieczność ostrożności


Odkrycia tego badania, które zostaną zaprezentowane na prestiżowej Konferencji na temat Wizji Komputerowej i Rozpoznawania Wzorców (Conference on Computer Vision and Pattern Recognition), mają dalekosiężne implikacje. Służą jako ważne ostrzeżenie dla użytkowników i programistów modeli wizualno-językowych. Jeśli coś tak fundamentalnego jak rozumienie negacji jest zaburzone, rodzi się pytanie o niezawodność tych systemów w wielu istniejących zastosowaniach. Profesor Ghassemi podkreśla: "To jest praca techniczna, ale istnieją większe kwestie do rozważenia. Jeśli coś tak podstawowego jak negacja jest zepsute, nie powinniśmy używać dużych modeli wizualno-językowych na wiele sposobów, w jakie obecnie ich używamy – bez intensywnej oceny."


Dlatego kluczowe jest, aby potencjalni użytkownicy tych technologii byli świadomi tego, być może dotychczas niedostatecznie zauważonego, braku. Przed wdrożeniem VLM w środowiskach wysokiego ryzyka konieczne jest przeprowadzenie dokładnych testów, w tym scenariuszy z negacjami, w celu oceny ich rzeczywistej niezawodności. Problem ten nie ogranicza się tylko do konkretnych słów, takich jak "nie" czy "ani"; dotyczy ogólnie zdolności modeli do rozumienia braku, wykluczenia lub przeciwieństwa.


Przyszłe badania mogłyby skupić się na głębszych zmianach w architekturze samych modeli. Jednym z możliwych kierunków jest szkolenie VLM do przetwarzania informacji tekstowych i wizualnych w sposób, który pozwoliłby im lepiej rozumieć niuanse semantyczne, w tym negację. Mogłoby to obejmować rozwój bardziej zaawansowanych mechanizmów uwagi (attention mechanisms) lub nowych funkcji straty (loss functions), które jawnie karałyby błędną interpretację negacji podczas treningu. Ponadto rozwój dodatkowych, specjalistycznych zbiorów danych, dostosowanych do konkretnych obszarów zastosowań, takich jak opieka zdrowotna, mógłby dodatkowo poprawić wydajność i bezpieczeństwo tych potężnych narzędzi. Chociaż modele wizualno-językowe niewątpliwie oferują ogromny potencjał, zapewnienie ich solidnego i niezawodnego działania, zwłaszcza w kontekście rozumienia negacji, pozostaje kluczowym wyzwaniem dla społeczności naukowej.

Źródło: Massachusetts Institute of Technology

Znajdź nocleg w pobliżu

Czas utworzenia: 15 maja, 2025

Redakcja nauki i technologii

Nasza Redakcja Nauki i Technologii powstała z wieloletniej pasji do badania, interpretowania i przybliżania złożonych tematów zwykłym czytelnikom. Piszą u nas pracownicy i wolontariusze, którzy od dziesięcioleci śledzą rozwój nauki i innowacji technologicznych – od odkryć laboratoryjnych po rozwiązania zmieniające codzienne życie. Choć piszemy w liczbie mnogiej, za każdym tekstem stoi prawdziwa osoba z dużym doświadczeniem redakcyjnym i dziennikarskim oraz głębokim szacunkiem dla faktów i informacji możliwych do zweryfikowania.

Nasza redakcja opiera swoją pracę na przekonaniu, że nauka jest najsilniejsza wtedy, gdy jest dostępna dla wszystkich. Dlatego dążymy do jasności, precyzji i zrozumiałości, unikając uproszczeń, które mogłyby obniżyć jakość treści. Często spędzamy godziny, analizując badania, dokumenty techniczne i źródła specjalistyczne, aby każdy temat przedstawić w sposób ciekawy, a nie obciążający. W każdym tekście staramy się łączyć wiedzę naukową z codziennym życiem, pokazując, jak idee z ośrodków badawczych, uniwersytetów i laboratoriów technologicznych kształtują świat wokół nas.

Wieloletnie doświadczenie dziennikarskie pozwala nam rozpoznać to, co dla czytelnika naprawdę ważne – niezależnie od tego, czy chodzi o postępy w sztucznej inteligencji, odkrycia medyczne, rozwiązania energetyczne, misje kosmiczne czy urządzenia, które trafiają do naszego życia codziennego, zanim zdążymy pomyśleć o ich możliwościach. Nasze spojrzenie na technologię nie jest wyłącznie techniczne; interesują nas także ludzkie historie stojące za wielkimi osiągnięciami – badacze, którzy latami dopracowują projekty, inżynierowie zamieniający idee w działające systemy oraz wizjonerzy przesuwający granice możliwości.

W naszej pracy kieruje nami również poczucie odpowiedzialności. Chcemy, by czytelnik mógł zaufać informacjom, które podajemy, dlatego sprawdzamy źródła, porównujemy dane i nie spieszymy się z publikacją, jeśli coś nie jest całkowicie jasne. Zaufanie buduje się wolniej niż pisze wiadomość, ale wierzymy, że tylko taki dziennikarski wysiłek ma trwałą wartość.

Dla nas technologia to coś więcej niż urządzenia, a nauka to coś więcej niż teoria. To dziedziny, które napędzają postęp, kształtują społeczeństwo i otwierają nowe możliwości dla wszystkich, którzy chcą zrozumieć, jak działa świat dziś i dokąd zmierza jutro. Dlatego podchodzimy do każdego tematu z powagą, ale i z ciekawością – bo to właśnie ciekawość otwiera drzwi najlepszym tekstom.

Naszą misją jest przybliżanie czytelnikom świata, który zmienia się szybciej niż kiedykolwiek wcześniej, w przekonaniu, że rzetelne dziennikarstwo może być mostem między ekspertami, innowatorami i wszystkimi, którzy chcą zrozumieć, co dzieje się za nagłówkami. W tym widzimy nasze właściwe zadanie: przekształcać to, co złożone, w zrozumiałe, to, co odległe, w bliskie, a to, co nieznane, w inspirujące.

UWAGA DLA NASZYCH CZYTELNIKÓW
Karlobag.eu dostarcza wiadomości, analizy i informacje o globalnych wydarzeniach oraz tematach interesujących czytelników na całym świecie. Wszystkie opublikowane informacje służą wyłącznie celom informacyjnym.
Podkreślamy, że nie jesteśmy ekspertami w dziedzinie nauki, medycyny, finansów ani prawa. Dlatego przed podjęciem jakichkolwiek decyzji na podstawie informacji z naszego portalu zalecamy konsultację z wykwalifikowanymi ekspertami.
Karlobag.eu może zawierać linki do zewnętrznych stron trzecich, w tym linki afiliacyjne i treści sponsorowane. Jeśli kupisz produkt lub usługę za pośrednictwem tych linków, możemy otrzymać prowizję. Nie mamy kontroli nad treścią ani politykami tych stron i nie ponosimy odpowiedzialności za ich dokładność, dostępność ani za jakiekolwiek transakcje przeprowadzone za ich pośrednictwem.
Jeśli publikujemy informacje o wydarzeniach lub sprzedaży biletów, prosimy pamiętać, że nie sprzedajemy biletów ani bezpośrednio, ani poprzez pośredników. Nasz portal wyłącznie informuje czytelników o wydarzeniach i możliwościach zakupu biletów poprzez zewnętrzne platformy sprzedażowe. Łączymy czytelników z partnerami oferującymi usługi sprzedaży biletów, jednak nie gwarantujemy ich dostępności, cen ani warunków zakupu. Wszystkie informacje o biletach pochodzą od stron trzecich i mogą ulec zmianie bez wcześniejszego powiadomienia.
Wszystkie informacje na naszym portalu mogą ulec zmianie bez wcześniejszego powiadomienia. Korzystając z tego portalu, zgadzasz się czytać treści na własne ryzyko.