Postavke privatnosti

Kobna slijepa točka umjetne inteligencije: Vizualno-jezični modeli ne razumiju 'ne', otkriva MIT studija

Vizualno-jezični modeli (VLM) revolucioniraju tehnologiju, no studija s MIT-a otkriva njihovu kritičnu manu: fundamentalno nerazumijevanje negacije. Ova slabost može dovesti do katastrofalnih grešaka u medicini i drugim visokorizičnim primjenama umjetne inteligencije, jer modeli ignoriraju riječi poput 'ne' ili 'bez', dovodeći u pitanje njihovu pouzdanost.

Kobna slijepa točka umjetne inteligencije: Vizualno-jezični modeli ne razumiju
Photo by: Domagoj Skledar/ arhiva (vlastita)

Svijet umjetne inteligencije (UI) neprestano napreduje, donoseći revolucionarne promjene u različitim sektorima, od medicine do proizvodnje. Među najperspektivnijim dostignućima su takozvani vizualno-jezični modeli (VLM), sofisticirani sustavi osposobljeni za istovremeno razumijevanje slika i teksta. Njihova sposobnost povezivanja vizualnih informacija s jezičnim opisima otvara vrata brojnim primjenama, uključujući napredne dijagnostičke alate i automatizirane sustave kontrole kvalitete. Međutim, nedavna istraživanja, uključujući i ono provedeno na Massachusetts Institute of Technology (MIT), bacaju svjetlo na kritičnu slabost ovih modela: njihovu nesposobnost ispravnog procesuiranja negacija. Riječi poput "ne", "nije" ili "bez" mogu dovesti do potpuno pogrešnih interpretacija, što u osjetljivim područjima primjene može imati katastrofalne posljedice.


Neočekivani propusti umjetne inteligencije: Problem s negacijom


Zamislite scenarij u radiološkoj ordinaciji. Liječnik analizira rendgensku snimku prsnog koša pacijenta. Uočava oticanje tkiva, ali primjećuje da srce nije uvećano. U želji da ubrza postavljanje dijagnoze i pronađe slične zabilježene slučajeve, radiolog bi se mogao osloniti na vizualno-jezični model. Ako sustav umjetne inteligencije pogrešno protumači upit i pretraži slučajeve pacijenata koji imaju i otečeno tkivo i uvećano srce, inicijalna dijagnoza mogla bi biti drastično drugačija. Naime, kombinacija otečenog tkiva i uvećanog srca snažno upućuje na srčane probleme, dok odsutnost uvećanog srca, unatoč otečenom tkivu, otvara mogućnost niza drugih potencijalnih uzroka. Ovakva pogreška u interpretaciji, uzrokovana nerazumijevanjem negacije, može odvesti dijagnostički proces u potpuno krivom smjeru.


Istraživači s MIT-a, u suradnji s kolegama s drugih institucija, sustavno su istražili ovaj problem. Njihovi nalazi ukazuju na to da vizualno-jezični modeli pokazuju izrazitu sklonost pogreškama u stvarnim situacijama kada se suoče s negacijskim riječima. Kumail Alhamoud, diplomski student na MIT-u i vodeći autor studije, naglašava: "Te negacijske riječi mogu imati vrlo značajan utjecaj, i ako slijepo koristimo ove modele, možemo se suočiti s katastrofalnim posljedicama." Ovo upozorenje nije ograničeno samo na medicinsku dijagnostiku; proteže se na sve visokorizične primjene gdje se odluke donose na temelju informacija koje generiraju ovi AI sustavi, od autonomnih vozila do kontrole kvalitete u industrijskim postrojenjima.


Kako funkcioniraju vizualno-jezični modeli i gdje nastaje 'kratki spoj'?


Vizualno-jezični modeli (VLM) sofisticirani su sustavi strojnog učenja koji se treniraju na golemim skupovima podataka koji sadrže slike i njihove pripadajuće tekstualne opise. Kroz proces treninga, modeli uče kodirati i slike i tekst u numeričke reprezentacije, poznate kao vektorski prikazi. Cilj je da model nauči generirati slične vektore za sliku i njezin odgovarajući opis. VLM-ovi tipično koriste dva odvojena enkodera: jedan za obradu slika i drugi za obradu teksta. Ovi enkoderi se istovremeno optimiziraju kako bi njihovi izlazni vektori bili što sličniji za semantički povezane parove slika i teksta.


Problem s negacijom proizlazi iz same prirode podataka na kojima se ovi modeli treniraju. "Opisi slika uglavnom izražavaju ono što se na slikama nalazi – oni su pozitivne oznake. I to je zapravo cijeli problem. Nitko ne gleda sliku psa koji preskače ogradu i opisuje je s 'pas koji preskače ogradu, bez helikoptera'", objašnjava Marzyeh Ghassemi, izvanredna profesorica na MIT-u i viša autorica istraživanja. Budući da skupovi podataka za treniranje dominantno sadrže afirmativne opise, VLM-ovi jednostavno nemaju dovoljno prilika naučiti prepoznavati i ispravno interpretirati negaciju. Nedostatak primjera gdje se eksplicitno navodi što *nije* prisutno na slici dovodi do toga da modeli razvijaju svojevrsnu "pristranost potvrđivanja" (affirmation bias).


Testiranje granica razumijevanja: Kako su modeli pali na ispitu negacije


Kako bi dublje istražili ovaj problem, znanstvenici su osmislili dva specifična referentna zadatka (benchmark tasks) namijenjena testiranju sposobnosti VLM-ova da razumiju negaciju. U prvom zadatku, koristili su veliki jezični model (LLM) za generiranje novih opisa za postojeće slike. Od LLM-a je zatraženo da razmisli o povezanim objektima koji se *ne nalaze* na slici i da ih uključi u opis. Zatim su testirali VLM-ove tako što su im davali upite s negacijskim riječima, tražeći od njih da dohvate slike koje sadrže određene objekte, ali ne i druge. Primjerice, model je mogao biti zadužen da pronađe slike s mačkom, ali bez psa.


Drugi zadatak sastojao se od pitanja s višestrukim izborom. VLM-u je prikazana slika te je morao odabrati najprikladniji opis iz niza vrlo sličnih opcija. Ti opisi razlikovali su se samo u detaljima – neki su dodavali referencu na objekt koji se ne pojavljuje na slici, dok su drugi negirali objekt koji je jasno vidljiv. Rezultati su bili poražavajući. Modeli su često podbacivali na oba zadatka. U zadacima dohvaćanja slika, performanse su pale za gotovo 25% kada su upiti sadržavali negacije. Kod odgovaranja na pitanja s višestrukim izborom, najbolji modeli postigli su točnost od samo oko 39%, dok su neki modeli imali rezultate na razini slučajnog pogađanja, pa čak i ispod toga.


Jedan od ključnih razloga za ovakve neuspjehe leži u spomenutoj "pristranosti potvrđivanja". VLM-ovi imaju tendenciju ignorirati negacijske riječi i fokusirati se isključivo na objekte spomenute u upitu, bez obzira na to jesu li ti objekti potvrđeni ili negirani. "Ovo se ne događa samo s riječima poput 'ne' i 'nije'. Bez obzira na to kako izrazite negaciju ili isključivanje, modeli će to jednostavno zanemariti," ističe Alhamoud. Ova slabost pokazala se konzistentnom kroz sve testirane vizualno-jezične modele, uključujući i neke od najpoznatijih i najkorištenijih u industriji.


Potraga za rješenjem: Novi skupovi podataka i budući pravci


Suočeni s ovim izazovom, istraživači nisu stali samo na identifikaciji problema. Kao prvi korak prema rješenju, razvili su nove skupove podataka koji eksplicitno uključuju negacijske riječi. Koristeći postojeći skup podataka s 10 milijuna parova slika i tekstualnih opisa, upotrijebili su veliki jezični model da predloži povezane opise koji specificiraju što je isključeno sa slika. Time su dobili nove opise obogaćene negacijama. Posebna pažnja posvećena je tome da ovi sintetički generirani opisi zvuče prirodno, kako bi se izbjeglo da VLM-ovi, trenirani na takvim podacima, kasnije podbace kada se suoče sa složenijim, ljudski pisanim opisima u stvarnom svijetu.


Nakon stvaranja ovih obogaćenih skupova podataka, tim je proveo proces tzv. finog podešavanja (finetuning) postojećih VLM-ova. Rezultati su bili ohrabrujući. Fino podešavanje s novim podacima dovelo je do poboljšanja performansi u svim segmentima. Sposobnost modela da dohvaćaju slike na temelju upita s negacijom poboljšala se za otprilike 10%, dok je uspješnost u zadatku odgovaranja na pitanja s višestrukim izborom porasla za impresivnih 30%.


"Naše rješenje nije savršeno. Mi samo ponovno opisujemo skupove podataka, što je oblik augmentacije podataka. Nismo ni dotaknuli način na koji ovi modeli rade, ali nadamo se da je ovo signal da je ovo rješiv problem i da drugi mogu preuzeti naše rješenje i poboljšati ga," skromno komentira Alhamoud. Ipak, ovaj napredak pokazuje da problem nije nepremostiv i da ciljano obogaćivanje podataka može donijeti značajna poboljšanja.


Šire implikacije i nužnost opreza


Nalazi ovog istraživanja, koje će biti predstavljeno na uglednoj Konferenciji o računalnom vidu i prepoznavanju uzoraka (Conference on Computer Vision and Pattern Recognition), imaju dalekosežne implikacije. Oni služe kao važno upozorenje korisnicima i programerima vizualno-jezičnih modela. Ako je nešto tako fundamentalno kao što je razumijevanje negacije narušeno, postavlja se pitanje pouzdanosti ovih sustava u mnogim postojećim primjenama. Profesorica Ghassemi naglašava: "Ovo je tehnički rad, ali postoje veća pitanja koja treba razmotriti. Ako je nešto osnovno poput negacije pokvareno, ne bismo smjeli koristiti velike vizualno-jezične modele na mnoge načine na koje ih sada koristimo – bez intenzivne evaluacije."


Stoga je ključno da potencijalni korisnici ovih tehnologija budu svjesni ovog, do sada možda nedovoljno uočenog, nedostatka. Prije implementacije VLM-a u visokorizičnim okruženjima, nužno je provesti temeljita testiranja, uključujući i scenarije s negacijama, kako bi se procijenila njihova stvarna pouzdanost. Ovaj problem nije ograničen samo na specifične riječi poput "ne" ili "nije"; tiče se općenito sposobnosti modela da razumiju odsutnost, isključenost ili suprotnost.


Buduća istraživanja mogla bi se usmjeriti na dublje promjene u arhitekturi samih modela. Jedan od mogućih pravaca je osposobljavanje VLM-ova da obrađuju tekstualne i vizualne informacije na način koji bi im omogućio bolje razumijevanje semantičkih nijansi, uključujući negaciju. To bi moglo uključivati razvoj sofisticiranijih mehanizama pažnje (attention mechanisms) ili novih funkcija gubitka (loss functions) koje bi eksplicitno penalizirale pogrešno tumačenje negacija tijekom treninga. Nadalje, razvoj dodatnih, specijaliziranih skupova podataka, prilagođenih specifičnim područjima primjene kao što je zdravstvo, mogao bi dodatno unaprijediti performanse i sigurnost ovih moćnih alata. Dok vizualno-jezični modeli nedvojbeno nude ogroman potencijal, osiguravanje njihovog robusnog i pouzdanog funkcioniranja, posebno u kontekstu razumijevanja negacije, ostaje ključan izazov za znanstvenu zajednicu.

Izvor: Massachusetts Institute of Technology

Kreirano: četvrtak, 15. svibnja, 2025.

Pronađite smještaj u blizini

Redakcija za znanost i tehnologiju

Naša Redakcija za znanost i tehnologiju nastala je iz dugogodišnje strasti prema istraživanju, tumačenju i približavanju složenih tema običnim čitateljima. U njoj pišu zaposlenici i volonteri koji već desetljećima prate razvoj znanosti i tehnoloških inovacija, od laboratorijskih otkrića do rješenja koja mijenjaju svakodnevni život. Iako pišemo u množini, iza svakog teksta stoji stvarna osoba s dugim uredničkim i novinarskim iskustvom te dubokim poštovanjem prema činjenicama i provjerljivim informacijama.

Naša redakcija temelji svoj rad na uvjerenju da je znanost najjača kada je dostupna svima. Zato težimo jasnoći, preciznosti i razumljivosti, ali bez pojednostavljivanja koje bi narušilo kvalitetu sadržaja. Često provodimo sate proučavajući istraživanja, tehničke dokumente i stručne izvore kako bismo svaku temu predstavili čitatelju na način koji ga neće opteretiti, nego zainteresirati. U svakom tekstu nastojimo povezati znanstvene spoznaje s realnim životom, pokazujući kako ideje iz istraživačkih centara, sveučilišta i tehnoloških laboratorija oblikuju svijet oko nas.

Dugogodišnje iskustvo u novinarstvu omogućuje nam da prepoznamo što je za čitatelja zaista važno, bilo da se radi o napretku u umjetnoj inteligenciji, medicinskim otkrićima, energetskim rješenjima, svemirskim misijama ili uređajima koji ulaze u našu svakodnevicu prije nego što stignemo uopće zamisliti njihove mogućnosti. Naš pogled na tehnologiju nije isključivo tehnički; zanimaju nas i ljudske priče koje stoje iza velikih pomaka – istraživači koji godinama privode kraju projekte, inženjeri koji pretvaraju ideje u funkcionalne sustave, te vizionari koji guraju granice mogućega.

U radu nas vodi i osjećaj odgovornosti. Želimo da čitatelj može imati povjerenje u informacije koje donosimo, pa provjeravamo izvore, uspoređujemo podatke i ne žurimo s objavom ako nešto nije sasvim jasno. Povjerenje gradimo sporije nego što se piše vijest, ali vjerujemo da je jedino takvo novinarstvo dugoročno vrijedno.

Za nas je tehnologija više od uređaja, a znanost više od teorije. To su područja koja pokreću napredak, oblikuju društvo i pružaju nove mogućnosti svima koji žele razumjeti kako svijet funkcionira danas i kamo ide sutra. Upravo zato u našoj redakciji pristupamo svakoj temi s ozbiljnošću, ali i s dozom znatiželje, jer upravo znatiželja otvara vrata najboljim tekstovima.

Naša je misija približiti čitateljima svijet koji se mijenja brže nego ikada prije, uz uvjerenje da kvalitetno novinarstvo može biti most između stručnjaka, inovatora i svih onih koji žele razumjeti što se događa iza naslova. U tome vidimo svoj pravi zadatak: pretvoriti kompleksno u razumljivo, udaljeno u blisko, a nepoznato u inspirativno.

NAPOMENA ZA NAŠE ČITATELJE
Karlobag.eu pruža vijesti, analize i informacije o globalnim događanjima i temama od interesa za čitatelje širom svijeta. Sve objavljene informacije služe isključivo u informativne svrhe.
Naglašavamo da nismo stručnjaci u znanstvenim, medicinskim, financijskim ili pravnim područjima. Stoga, prije donošenja bilo kakvih odluka temeljenih na informacijama s našeg portala, preporučujemo da se konzultirate s kvalificiranim stručnjacima.
Karlobag.eu može sadržavati poveznice na vanjske stranice trećih strana, uključujući affiliate linkove i sponzorirane sadržaje. Ako kupite proizvod ili uslugu putem ovih poveznica, možemo ostvariti proviziju. Nemamo kontrolu nad sadržajem ili politikama tih stranica te ne snosimo odgovornost za njihovu točnost, dostupnost ili bilo kakve transakcije koje obavite putem njih.
Ako objavljujemo informacije o događajima ili prodaji ulaznica, napominjemo da mi ne prodajemo ulaznice niti izravno niti preko posrednika. Naš portal isključivo informira čitatelje o događajima i mogućnostima kupnje putem vanjskih prodajnih platformi. Povezujemo čitatelje s partnerima koji nude usluge prodaje ulaznica, ali ne jamčimo njihovu dostupnost, cijene ili uvjete kupnje. Sve informacije o ulaznicama preuzete su od trećih strana i mogu biti podložne promjenama bez prethodne najave. Preporučujemo da prije bilo kakve kupnje temeljito provjerite uvjete prodaje kod odabranog partnera, budući da portal Karlobag.eu ne preuzima odgovornost za transakcije ili uvjete prodaje ulaznica.
Sve informacije na našem portalu podložne su promjenama bez prethodne najave. Korištenjem ovog portala prihvaćate da čitate sadržaj na vlastitu odgovornost.