Svijet umjetne inteligencije (UI) neprestano napreduje, donoseći revolucionarne promjene u različitim sektorima, od medicine do proizvodnje. Među najperspektivnijim dostignućima su takozvani vizualno-jezični modeli (VLM), sofisticirani sustavi osposobljeni za istovremeno razumijevanje slika i teksta. Njihova sposobnost povezivanja vizualnih informacija s jezičnim opisima otvara vrata brojnim primjenama, uključujući napredne dijagnostičke alate i automatizirane sustave kontrole kvalitete. Međutim, nedavna istraživanja, uključujući i ono provedeno na Massachusetts Institute of Technology (MIT), bacaju svjetlo na kritičnu slabost ovih modela: njihovu nesposobnost ispravnog procesuiranja negacija. Riječi poput "ne", "nije" ili "bez" mogu dovesti do potpuno pogrešnih interpretacija, što u osjetljivim područjima primjene može imati katastrofalne posljedice.
Neočekivani propusti umjetne inteligencije: Problem s negacijom
Zamislite scenarij u radiološkoj ordinaciji. Liječnik analizira rendgensku snimku prsnog koša pacijenta. Uočava oticanje tkiva, ali primjećuje da srce nije uvećano. U želji da ubrza postavljanje dijagnoze i pronađe slične zabilježene slučajeve, radiolog bi se mogao osloniti na vizualno-jezični model. Ako sustav umjetne inteligencije pogrešno protumači upit i pretraži slučajeve pacijenata koji imaju i otečeno tkivo i uvećano srce, inicijalna dijagnoza mogla bi biti drastično drugačija. Naime, kombinacija otečenog tkiva i uvećanog srca snažno upućuje na srčane probleme, dok odsutnost uvećanog srca, unatoč otečenom tkivu, otvara mogućnost niza drugih potencijalnih uzroka. Ovakva pogreška u interpretaciji, uzrokovana nerazumijevanjem negacije, može odvesti dijagnostički proces u potpuno krivom smjeru.
Istraživači s MIT-a, u suradnji s kolegama s drugih institucija, sustavno su istražili ovaj problem. Njihovi nalazi ukazuju na to da vizualno-jezični modeli pokazuju izrazitu sklonost pogreškama u stvarnim situacijama kada se suoče s negacijskim riječima. Kumail Alhamoud, diplomski student na MIT-u i vodeći autor studije, naglašava: "Te negacijske riječi mogu imati vrlo značajan utjecaj, i ako slijepo koristimo ove modele, možemo se suočiti s katastrofalnim posljedicama." Ovo upozorenje nije ograničeno samo na medicinsku dijagnostiku; proteže se na sve visokorizične primjene gdje se odluke donose na temelju informacija koje generiraju ovi AI sustavi, od autonomnih vozila do kontrole kvalitete u industrijskim postrojenjima.
Kako funkcioniraju vizualno-jezični modeli i gdje nastaje 'kratki spoj'?
Vizualno-jezični modeli (VLM) sofisticirani su sustavi strojnog učenja koji se treniraju na golemim skupovima podataka koji sadrže slike i njihove pripadajuće tekstualne opise. Kroz proces treninga, modeli uče kodirati i slike i tekst u numeričke reprezentacije, poznate kao vektorski prikazi. Cilj je da model nauči generirati slične vektore za sliku i njezin odgovarajući opis. VLM-ovi tipično koriste dva odvojena enkodera: jedan za obradu slika i drugi za obradu teksta. Ovi enkoderi se istovremeno optimiziraju kako bi njihovi izlazni vektori bili što sličniji za semantički povezane parove slika i teksta.
Problem s negacijom proizlazi iz same prirode podataka na kojima se ovi modeli treniraju. "Opisi slika uglavnom izražavaju ono što se na slikama nalazi – oni su pozitivne oznake. I to je zapravo cijeli problem. Nitko ne gleda sliku psa koji preskače ogradu i opisuje je s 'pas koji preskače ogradu, bez helikoptera'", objašnjava Marzyeh Ghassemi, izvanredna profesorica na MIT-u i viša autorica istraživanja. Budući da skupovi podataka za treniranje dominantno sadrže afirmativne opise, VLM-ovi jednostavno nemaju dovoljno prilika naučiti prepoznavati i ispravno interpretirati negaciju. Nedostatak primjera gdje se eksplicitno navodi što *nije* prisutno na slici dovodi do toga da modeli razvijaju svojevrsnu "pristranost potvrđivanja" (affirmation bias).
Testiranje granica razumijevanja: Kako su modeli pali na ispitu negacije
Kako bi dublje istražili ovaj problem, znanstvenici su osmislili dva specifična referentna zadatka (benchmark tasks) namijenjena testiranju sposobnosti VLM-ova da razumiju negaciju. U prvom zadatku, koristili su veliki jezični model (LLM) za generiranje novih opisa za postojeće slike. Od LLM-a je zatraženo da razmisli o povezanim objektima koji se *ne nalaze* na slici i da ih uključi u opis. Zatim su testirali VLM-ove tako što su im davali upite s negacijskim riječima, tražeći od njih da dohvate slike koje sadrže određene objekte, ali ne i druge. Primjerice, model je mogao biti zadužen da pronađe slike s mačkom, ali bez psa.
Drugi zadatak sastojao se od pitanja s višestrukim izborom. VLM-u je prikazana slika te je morao odabrati najprikladniji opis iz niza vrlo sličnih opcija. Ti opisi razlikovali su se samo u detaljima – neki su dodavali referencu na objekt koji se ne pojavljuje na slici, dok su drugi negirali objekt koji je jasno vidljiv. Rezultati su bili poražavajući. Modeli su često podbacivali na oba zadatka. U zadacima dohvaćanja slika, performanse su pale za gotovo 25% kada su upiti sadržavali negacije. Kod odgovaranja na pitanja s višestrukim izborom, najbolji modeli postigli su točnost od samo oko 39%, dok su neki modeli imali rezultate na razini slučajnog pogađanja, pa čak i ispod toga.
Jedan od ključnih razloga za ovakve neuspjehe leži u spomenutoj "pristranosti potvrđivanja". VLM-ovi imaju tendenciju ignorirati negacijske riječi i fokusirati se isključivo na objekte spomenute u upitu, bez obzira na to jesu li ti objekti potvrđeni ili negirani. "Ovo se ne događa samo s riječima poput 'ne' i 'nije'. Bez obzira na to kako izrazite negaciju ili isključivanje, modeli će to jednostavno zanemariti," ističe Alhamoud. Ova slabost pokazala se konzistentnom kroz sve testirane vizualno-jezične modele, uključujući i neke od najpoznatijih i najkorištenijih u industriji.
Potraga za rješenjem: Novi skupovi podataka i budući pravci
Suočeni s ovim izazovom, istraživači nisu stali samo na identifikaciji problema. Kao prvi korak prema rješenju, razvili su nove skupove podataka koji eksplicitno uključuju negacijske riječi. Koristeći postojeći skup podataka s 10 milijuna parova slika i tekstualnih opisa, upotrijebili su veliki jezični model da predloži povezane opise koji specificiraju što je isključeno sa slika. Time su dobili nove opise obogaćene negacijama. Posebna pažnja posvećena je tome da ovi sintetički generirani opisi zvuče prirodno, kako bi se izbjeglo da VLM-ovi, trenirani na takvim podacima, kasnije podbace kada se suoče sa složenijim, ljudski pisanim opisima u stvarnom svijetu.
Nakon stvaranja ovih obogaćenih skupova podataka, tim je proveo proces tzv. finog podešavanja (finetuning) postojećih VLM-ova. Rezultati su bili ohrabrujući. Fino podešavanje s novim podacima dovelo je do poboljšanja performansi u svim segmentima. Sposobnost modela da dohvaćaju slike na temelju upita s negacijom poboljšala se za otprilike 10%, dok je uspješnost u zadatku odgovaranja na pitanja s višestrukim izborom porasla za impresivnih 30%.
"Naše rješenje nije savršeno. Mi samo ponovno opisujemo skupove podataka, što je oblik augmentacije podataka. Nismo ni dotaknuli način na koji ovi modeli rade, ali nadamo se da je ovo signal da je ovo rješiv problem i da drugi mogu preuzeti naše rješenje i poboljšati ga," skromno komentira Alhamoud. Ipak, ovaj napredak pokazuje da problem nije nepremostiv i da ciljano obogaćivanje podataka može donijeti značajna poboljšanja.
Šire implikacije i nužnost opreza
Nalazi ovog istraživanja, koje će biti predstavljeno na uglednoj Konferenciji o računalnom vidu i prepoznavanju uzoraka (Conference on Computer Vision and Pattern Recognition), imaju dalekosežne implikacije. Oni služe kao važno upozorenje korisnicima i programerima vizualno-jezičnih modela. Ako je nešto tako fundamentalno kao što je razumijevanje negacije narušeno, postavlja se pitanje pouzdanosti ovih sustava u mnogim postojećim primjenama. Profesorica Ghassemi naglašava: "Ovo je tehnički rad, ali postoje veća pitanja koja treba razmotriti. Ako je nešto osnovno poput negacije pokvareno, ne bismo smjeli koristiti velike vizualno-jezične modele na mnoge načine na koje ih sada koristimo – bez intenzivne evaluacije."
Stoga je ključno da potencijalni korisnici ovih tehnologija budu svjesni ovog, do sada možda nedovoljno uočenog, nedostatka. Prije implementacije VLM-a u visokorizičnim okruženjima, nužno je provesti temeljita testiranja, uključujući i scenarije s negacijama, kako bi se procijenila njihova stvarna pouzdanost. Ovaj problem nije ograničen samo na specifične riječi poput "ne" ili "nije"; tiče se općenito sposobnosti modela da razumiju odsutnost, isključenost ili suprotnost.
Buduća istraživanja mogla bi se usmjeriti na dublje promjene u arhitekturi samih modela. Jedan od mogućih pravaca je osposobljavanje VLM-ova da obrađuju tekstualne i vizualne informacije na način koji bi im omogućio bolje razumijevanje semantičkih nijansi, uključujući negaciju. To bi moglo uključivati razvoj sofisticiranijih mehanizama pažnje (attention mechanisms) ili novih funkcija gubitka (loss functions) koje bi eksplicitno penalizirale pogrešno tumačenje negacija tijekom treninga. Nadalje, razvoj dodatnih, specijaliziranih skupova podataka, prilagođenih specifičnim područjima primjene kao što je zdravstvo, mogao bi dodatno unaprijediti performanse i sigurnost ovih moćnih alata. Dok vizualno-jezični modeli nedvojbeno nude ogroman potencijal, osiguravanje njihovog robusnog i pouzdanog funkcioniranja, posebno u kontekstu razumijevanja negacije, ostaje ključan izazov za znanstvenu zajednicu.
Izvor: Massachusetts Institute of Technology
Greška: Koordinate nisu pronađene za mjesto:
Kreirano: četvrtak, 15. svibnja, 2025.