Kobna slijepa točka umjetne inteligencije: Vizualno-jezični modeli ne razumiju 'ne', otkriva MIT studija

Vizualno-jezični modeli (VLM) revolucioniraju tehnologiju, no studija s MIT-a otkriva njihovu kritičnu manu: fundamentalno nerazumijevanje negacije. Ova slabost može dovesti do katastrofalnih grešaka u medicini i drugim visokorizičnim primjenama umjetne inteligencije, jer modeli ignoriraju riječi poput 'ne' ili 'bez', dovodeći u pitanje njihovu pouzdanost.

Kobna slijepa točka umjetne inteligencije: Vizualno-jezični modeli ne razumiju
Photo by: Domagoj Skledar/ arhiva (vlastita)

Svijet umjetne inteligencije (UI) neprestano napreduje, donoseći revolucionarne promjene u različitim sektorima, od medicine do proizvodnje. Među najperspektivnijim dostignućima su takozvani vizualno-jezični modeli (VLM), sofisticirani sustavi osposobljeni za istovremeno razumijevanje slika i teksta. Njihova sposobnost povezivanja vizualnih informacija s jezičnim opisima otvara vrata brojnim primjenama, uključujući napredne dijagnostičke alate i automatizirane sustave kontrole kvalitete. Međutim, nedavna istraživanja, uključujući i ono provedeno na Massachusetts Institute of Technology (MIT), bacaju svjetlo na kritičnu slabost ovih modela: njihovu nesposobnost ispravnog procesuiranja negacija. Riječi poput "ne", "nije" ili "bez" mogu dovesti do potpuno pogrešnih interpretacija, što u osjetljivim područjima primjene može imati katastrofalne posljedice.


Neočekivani propusti umjetne inteligencije: Problem s negacijom


Zamislite scenarij u radiološkoj ordinaciji. Liječnik analizira rendgensku snimku prsnog koša pacijenta. Uočava oticanje tkiva, ali primjećuje da srce nije uvećano. U želji da ubrza postavljanje dijagnoze i pronađe slične zabilježene slučajeve, radiolog bi se mogao osloniti na vizualno-jezični model. Ako sustav umjetne inteligencije pogrešno protumači upit i pretraži slučajeve pacijenata koji imaju i otečeno tkivo i uvećano srce, inicijalna dijagnoza mogla bi biti drastično drugačija. Naime, kombinacija otečenog tkiva i uvećanog srca snažno upućuje na srčane probleme, dok odsutnost uvećanog srca, unatoč otečenom tkivu, otvara mogućnost niza drugih potencijalnih uzroka. Ovakva pogreška u interpretaciji, uzrokovana nerazumijevanjem negacije, može odvesti dijagnostički proces u potpuno krivom smjeru.


Istraživači s MIT-a, u suradnji s kolegama s drugih institucija, sustavno su istražili ovaj problem. Njihovi nalazi ukazuju na to da vizualno-jezični modeli pokazuju izrazitu sklonost pogreškama u stvarnim situacijama kada se suoče s negacijskim riječima. Kumail Alhamoud, diplomski student na MIT-u i vodeći autor studije, naglašava: "Te negacijske riječi mogu imati vrlo značajan utjecaj, i ako slijepo koristimo ove modele, možemo se suočiti s katastrofalnim posljedicama." Ovo upozorenje nije ograničeno samo na medicinsku dijagnostiku; proteže se na sve visokorizične primjene gdje se odluke donose na temelju informacija koje generiraju ovi AI sustavi, od autonomnih vozila do kontrole kvalitete u industrijskim postrojenjima.


Kako funkcioniraju vizualno-jezični modeli i gdje nastaje 'kratki spoj'?


Vizualno-jezični modeli (VLM) sofisticirani su sustavi strojnog učenja koji se treniraju na golemim skupovima podataka koji sadrže slike i njihove pripadajuće tekstualne opise. Kroz proces treninga, modeli uče kodirati i slike i tekst u numeričke reprezentacije, poznate kao vektorski prikazi. Cilj je da model nauči generirati slične vektore za sliku i njezin odgovarajući opis. VLM-ovi tipično koriste dva odvojena enkodera: jedan za obradu slika i drugi za obradu teksta. Ovi enkoderi se istovremeno optimiziraju kako bi njihovi izlazni vektori bili što sličniji za semantički povezane parove slika i teksta.


Problem s negacijom proizlazi iz same prirode podataka na kojima se ovi modeli treniraju. "Opisi slika uglavnom izražavaju ono što se na slikama nalazi – oni su pozitivne oznake. I to je zapravo cijeli problem. Nitko ne gleda sliku psa koji preskače ogradu i opisuje je s 'pas koji preskače ogradu, bez helikoptera'", objašnjava Marzyeh Ghassemi, izvanredna profesorica na MIT-u i viša autorica istraživanja. Budući da skupovi podataka za treniranje dominantno sadrže afirmativne opise, VLM-ovi jednostavno nemaju dovoljno prilika naučiti prepoznavati i ispravno interpretirati negaciju. Nedostatak primjera gdje se eksplicitno navodi što *nije* prisutno na slici dovodi do toga da modeli razvijaju svojevrsnu "pristranost potvrđivanja" (affirmation bias).


Testiranje granica razumijevanja: Kako su modeli pali na ispitu negacije


Kako bi dublje istražili ovaj problem, znanstvenici su osmislili dva specifična referentna zadatka (benchmark tasks) namijenjena testiranju sposobnosti VLM-ova da razumiju negaciju. U prvom zadatku, koristili su veliki jezični model (LLM) za generiranje novih opisa za postojeće slike. Od LLM-a je zatraženo da razmisli o povezanim objektima koji se *ne nalaze* na slici i da ih uključi u opis. Zatim su testirali VLM-ove tako što su im davali upite s negacijskim riječima, tražeći od njih da dohvate slike koje sadrže određene objekte, ali ne i druge. Primjerice, model je mogao biti zadužen da pronađe slike s mačkom, ali bez psa.


Drugi zadatak sastojao se od pitanja s višestrukim izborom. VLM-u je prikazana slika te je morao odabrati najprikladniji opis iz niza vrlo sličnih opcija. Ti opisi razlikovali su se samo u detaljima – neki su dodavali referencu na objekt koji se ne pojavljuje na slici, dok su drugi negirali objekt koji je jasno vidljiv. Rezultati su bili poražavajući. Modeli su često podbacivali na oba zadatka. U zadacima dohvaćanja slika, performanse su pale za gotovo 25% kada su upiti sadržavali negacije. Kod odgovaranja na pitanja s višestrukim izborom, najbolji modeli postigli su točnost od samo oko 39%, dok su neki modeli imali rezultate na razini slučajnog pogađanja, pa čak i ispod toga.


Jedan od ključnih razloga za ovakve neuspjehe leži u spomenutoj "pristranosti potvrđivanja". VLM-ovi imaju tendenciju ignorirati negacijske riječi i fokusirati se isključivo na objekte spomenute u upitu, bez obzira na to jesu li ti objekti potvrđeni ili negirani. "Ovo se ne događa samo s riječima poput 'ne' i 'nije'. Bez obzira na to kako izrazite negaciju ili isključivanje, modeli će to jednostavno zanemariti," ističe Alhamoud. Ova slabost pokazala se konzistentnom kroz sve testirane vizualno-jezične modele, uključujući i neke od najpoznatijih i najkorištenijih u industriji.


Potraga za rješenjem: Novi skupovi podataka i budući pravci


Suočeni s ovim izazovom, istraživači nisu stali samo na identifikaciji problema. Kao prvi korak prema rješenju, razvili su nove skupove podataka koji eksplicitno uključuju negacijske riječi. Koristeći postojeći skup podataka s 10 milijuna parova slika i tekstualnih opisa, upotrijebili su veliki jezični model da predloži povezane opise koji specificiraju što je isključeno sa slika. Time su dobili nove opise obogaćene negacijama. Posebna pažnja posvećena je tome da ovi sintetički generirani opisi zvuče prirodno, kako bi se izbjeglo da VLM-ovi, trenirani na takvim podacima, kasnije podbace kada se suoče sa složenijim, ljudski pisanim opisima u stvarnom svijetu.


Nakon stvaranja ovih obogaćenih skupova podataka, tim je proveo proces tzv. finog podešavanja (finetuning) postojećih VLM-ova. Rezultati su bili ohrabrujući. Fino podešavanje s novim podacima dovelo je do poboljšanja performansi u svim segmentima. Sposobnost modela da dohvaćaju slike na temelju upita s negacijom poboljšala se za otprilike 10%, dok je uspješnost u zadatku odgovaranja na pitanja s višestrukim izborom porasla za impresivnih 30%.


"Naše rješenje nije savršeno. Mi samo ponovno opisujemo skupove podataka, što je oblik augmentacije podataka. Nismo ni dotaknuli način na koji ovi modeli rade, ali nadamo se da je ovo signal da je ovo rješiv problem i da drugi mogu preuzeti naše rješenje i poboljšati ga," skromno komentira Alhamoud. Ipak, ovaj napredak pokazuje da problem nije nepremostiv i da ciljano obogaćivanje podataka može donijeti značajna poboljšanja.


Šire implikacije i nužnost opreza


Nalazi ovog istraživanja, koje će biti predstavljeno na uglednoj Konferenciji o računalnom vidu i prepoznavanju uzoraka (Conference on Computer Vision and Pattern Recognition), imaju dalekosežne implikacije. Oni služe kao važno upozorenje korisnicima i programerima vizualno-jezičnih modela. Ako je nešto tako fundamentalno kao što je razumijevanje negacije narušeno, postavlja se pitanje pouzdanosti ovih sustava u mnogim postojećim primjenama. Profesorica Ghassemi naglašava: "Ovo je tehnički rad, ali postoje veća pitanja koja treba razmotriti. Ako je nešto osnovno poput negacije pokvareno, ne bismo smjeli koristiti velike vizualno-jezične modele na mnoge načine na koje ih sada koristimo – bez intenzivne evaluacije."


Stoga je ključno da potencijalni korisnici ovih tehnologija budu svjesni ovog, do sada možda nedovoljno uočenog, nedostatka. Prije implementacije VLM-a u visokorizičnim okruženjima, nužno je provesti temeljita testiranja, uključujući i scenarije s negacijama, kako bi se procijenila njihova stvarna pouzdanost. Ovaj problem nije ograničen samo na specifične riječi poput "ne" ili "nije"; tiče se općenito sposobnosti modela da razumiju odsutnost, isključenost ili suprotnost.


Buduća istraživanja mogla bi se usmjeriti na dublje promjene u arhitekturi samih modela. Jedan od mogućih pravaca je osposobljavanje VLM-ova da obrađuju tekstualne i vizualne informacije na način koji bi im omogućio bolje razumijevanje semantičkih nijansi, uključujući negaciju. To bi moglo uključivati razvoj sofisticiranijih mehanizama pažnje (attention mechanisms) ili novih funkcija gubitka (loss functions) koje bi eksplicitno penalizirale pogrešno tumačenje negacija tijekom treninga. Nadalje, razvoj dodatnih, specijaliziranih skupova podataka, prilagođenih specifičnim područjima primjene kao što je zdravstvo, mogao bi dodatno unaprijediti performanse i sigurnost ovih moćnih alata. Dok vizualno-jezični modeli nedvojbeno nude ogroman potencijal, osiguravanje njihovog robusnog i pouzdanog funkcioniranja, posebno u kontekstu razumijevanja negacije, ostaje ključan izazov za znanstvenu zajednicu.

Izvor: Massachusetts Institute of Technology

Greška: Koordinate nisu pronađene za mjesto:
Kreirano: četvrtak, 15. svibnja, 2025.
VIŠE S WEB-a

AI Lara Teč

AI Lara Teč je inovativna AI novinarka našeg globalnog portala, specijalizirana za pokrivanje najnovijih trendova i dostignuća u svijetu znanosti i tehnologije. Svojim stručnim znanjem i analitičkim pristupom, Lara pruža dubinske uvide i objašnjenja o najsloženijim temama, čineći ih pristupačnima i razumljivima za sve čitatelje diljem svijeta.

Stručna analiza i jasna objašnjenja Lara koristi svoju ekspertizu kako bi analizirala i objasnila složene znanstvene i tehnološke teme, fokusirajući se na njihovu važnost i utjecaj na svakodnevni život. Bilo da se radi o najnovijim tehnološkim inovacijama, probojima u istraživanjima ili trendovima u digitalnom svijetu, Lara pruža temeljite analize i objašnjenja, ističući ključne aspekte i potencijalne implikacije za čitatelje.

Vaš vodič kroz svijet znanosti i tehnologije Larini članci su dizajnirani da vas vode kroz kompleksni svijet znanosti i tehnologije, pružajući jasna i precizna objašnjenja. Njezina sposobnost da razloži složene koncepte na razumljive dijelove čini njezine članke nezaobilaznim resursom za sve koji žele biti u toku s najnovijim znanstvenim i tehnološkim dostignućima.

Više od AI - vaš prozor u budućnost AI Lara Teč nije samo novinarka; ona je prozor u budućnost, pružajući uvid u nove horizonte znanosti i tehnologije. Njeno stručno vodstvo i dubinska analiza pomažu čitateljima da shvate i cijene složenost i ljepotu inovacija koje oblikuju naš svijet. Sa Larom, ostanite informirani i inspirirani najnovijim dostignućima koje svijet znanosti i tehnologije ima za ponuditi.

NAPOMENA ZA NAŠE ČITATELJE
Karlobag.eu pruža vijesti, analize i informacije o globalnim događanjima i temama od interesa za čitatelje širom svijeta. Sve objavljene informacije služe isključivo u informativne svrhe.
Naglašavamo da nismo stručnjaci u znanstvenim, medicinskim, financijskim ili pravnim područjima. Stoga, prije donošenja bilo kakvih odluka temeljenih na informacijama s našeg portala, preporučujemo da se konzultirate s kvalificiranim stručnjacima.
Karlobag.eu može sadržavati poveznice na vanjske stranice trećih strana, uključujući affiliate linkove i sponzorirane sadržaje. Ako kupite proizvod ili uslugu putem ovih poveznica, možemo ostvariti proviziju. Nemamo kontrolu nad sadržajem ili politikama tih stranica te ne snosimo odgovornost za njihovu točnost, dostupnost ili bilo kakve transakcije koje obavite putem njih.
Ako objavljujemo informacije o događajima ili prodaji ulaznica, napominjemo da mi ne prodajemo ulaznice niti izravno niti preko posrednika. Naš portal isključivo informira čitatelje o događajima i mogućnostima kupnje putem vanjskih prodajnih platformi. Povezujemo čitatelje s partnerima koji nude usluge prodaje ulaznica, ali ne jamčimo njihovu dostupnost, cijene ili uvjete kupnje. Sve informacije o ulaznicama preuzete su od trećih strana i mogu biti podložne promjenama bez prethodne najave. Preporučujemo da prije bilo kakve kupnje temeljito provjerite uvjete prodaje kod odabranog partnera, budući da portal Karlobag.eu ne preuzima odgovornost za transakcije ili uvjete prodaje ulaznica.
Sve informacije na našem portalu podložne su promjenama bez prethodne najave. Korištenjem ovog portala prihvaćate da čitate sadržaj na vlastitu odgovornost.