Otkrivena skrivena mana velikih jezičnih modela: Istraživači s MIT-a objasnili zašto AI zanemaruje ključne podatke

Istraživači s MIT-a otkrili su zašto veliki jezični modeli poput GPT-4 pokazuju pozicijsku pristranost, zanemarujući ključne informacije u sredini dokumenata. Ovaj fenomen, poznat kao "izgubljenost u sredini", izravna je posljedica arhitekture modela i može ugroziti pouzdanost AI sustava u medicini i pravu.

Otkrivena skrivena mana velikih jezičnih modela: Istraživači s MIT-a objasnili zašto AI zanemaruje ključne podatke
Photo by: Domagoj Skledar/ arhiva (vlastita)

Veliki jezični modeli (LLM), poput naprednih sustava kao što su GPT-4, Claude i Llama, postaju nezamjenjiv alat u sve većem broju profesija, od prava i medicine do programiranja i znanstvenih istraživanja. Njihova sposobnost obrade i generiranja teksta koji nalikuje ljudskom otvorila je vrata novim razinama produktivnosti. Međutim, ispod površine ove tehnološke revolucije krije se suptilna, ali značajna mana koja može dovesti do nepouzdanih i netočnih rezultata: pozicijska pristranost. Nedavna istraživanja otkrila su da ovi složeni sustavi imaju tendenciju pridavati neproporcionalno veliku važnost informacijama koje se nalaze na samom početku ili kraju dokumenta, dok istovremeno zanemaruju ključne podatke smještene u sredini.


Ovaj problem znači da, primjerice, odvjetnik koji koristi virtualnog asistenta pokretanog umjetnom inteligencijom za pronalaženje specifične klauzule u ugovoru od trideset stranica ima znatno veće šanse za uspjeh ako se ta klauzula nalazi na prvoj ili posljednjoj stranici. Informacije u središnjem dijelu dokumenta, bez obzira na njihovu relevantnost, često ostaju "nevidljive" za model.


Razotkrivanje "Izgubljenosti u Sredini": Problem Koji Pogađa i Najnaprednije Sustave


Fenomen poznat kao "izgubljenost u sredini" (engl. lost-in-the-middle) manifestira se kroz specifičan uzorak točnosti u obliku slova "U". Kada se testira sposobnost modela da pronađe točan odgovor unutar dugog teksta, performanse su najbolje ako je informacija na početku. Kako se ciljana informacija pomiče prema sredini, točnost drastično opada, dosežući najnižu točku u samom centru dokumenta, da bi se zatim blago popravila prema kraju. Ovaj nedostatak nije samo tehnička zanimljivost, već predstavlja ozbiljan rizik u primjenama gdje je svaka informacija od presudne važnosti.


Zamislite medicinski AI sustav koji analizira opsežnu povijest bolesti pacijenta. Ako se ključni simptom ili rezultat laboratorijskog testa spominje u sredini dokumentacije, model bi ga mogao previdjeti, što potencijalno vodi do pogrešne dijagnoze. Slično tome, programer koji se oslanja na AI asistenta za analizu složenog koda mogao bi dobiti nepotpunu sliku ako model ignorira kritične funkcije smještene u središnjem dijelu programskog paketa. Razumijevanje i rješavanje ovog problema ključno je za izgradnju povjerenja u AI sustave i njihovu sigurnu primjenu.


Istraživači s MIT-a Ušli u Trag Korijenu Problema


Tim znanstvenika s prestižnog Massachusetts Institute of Technology (MIT), smještenog u gradu Cambridge, uspio je otkriti temeljni mehanizam koji uzrokuje ovu pojavu. U novoj studiji, koja će biti predstavljena na Međunarodnoj konferenciji o strojnom učenju, istraživači su razvili teorijski okvir koji im je omogućio da zavire unutar "crne kutije" velikih jezičnih modela.


Pod vodstvom Xinyi Wu, studentice na MIT-ovom Institutu za podatke, sustave i društvo (IDSS), i uz suradnju s postdoktorandom Yifeiom Wangom te iskusnim profesorima Stefanie Jegelkom i Alijem Jadbabaiejem, tim je utvrdio da pozicijska pristranost nije slučajan bug, već izravna posljedica određenih dizajnerskih odluka u samoj arhitekturi modela. "Ovi su modeli crne kutije, pa kao korisnik vjerojatno ne znate da pozicijska pristranost može uzrokovati nedosljednost vašeg modela", ističe Wu. "Boljim razumijevanjem temeljnog mehanizma ovih modela možemo ih poboljšati rješavanjem tih ograničenja."


Anatomija Transformatora: Kako Arhitektura Stvara Pristranost


Srce modernih jezičnih modela čini neuronska mrežna arhitektura poznata kao transformator. Transformatori obrađuju tekst tako da ga prvo razbijaju na manje dijelove, takozvane "tokene", a zatim uče odnose između tih tokena kako bi razumjeli kontekst i predvidjeli sljedeće riječi. Ključna inovacija koja im to omogućuje jest mehanizam pažnje (engl. attention mechanism), koji dopušta svakom tokenu da selektivno "obrati pažnju" na druge relevantne tokene u tekstu.


Međutim, omogućiti svakom tokenu u dokumentu od 30 stranica da obrati pažnju na svaki drugi token bilo bi računski preskupo i neizvedivo. Zbog toga inženjeri koriste tehnike "maskiranja pažnje" (engl. attention masking) koje ograničavaju na koje tokene pojedini token može gledati. Istraživanje MIT-a pokazalo je da je upravo jedna od tih tehnika, poznata kao kauzalna maska (engl. causal mask), jedan od glavnih krivaca za pristranost. Kauzalna maska dopušta tokenima da obraćaju pažnju samo na one tokene koji su se pojavili prije njih. Ova metoda, iako korisna za zadatke poput generiranja teksta, inherentno stvara pristranost prema početku ulaznog niza. Što je model dublji, odnosno što ima više slojeva mehanizma pažnje, ova se početna pristranost dodatno pojačava jer se informacije s početka koriste sve češće u procesu zaključivanja modela.


Uloga Podataka i Mogućnosti za Ispravak


Arhitektura modela nije jedini izvor problema. Istraživači su potvrdili da i podaci za obuku igraju značajnu ulogu. Ako su podaci na kojima je model učio sami po sebi pristrani na određeni način, model će neizbježno naučiti i reproducirati tu pristranost. Srećom, teorijski okvir koji je razvio tim s MIT-a ne samo da dijagnosticira problem, već nudi i potencijalna rješenja.


Jedna od predloženih strategija je korištenje pozicijskog kodiranja (engl. positional encodings), tehnike koja modelu pruža eksplicitne informacije o lokaciji svake riječi unutar niza. Jačim povezivanjem riječi s njihovim neposrednim susjedima, ova tehnika može pomoći u preusmjeravanju "pažnje" modela na relevantnije dijelove teksta i tako ublažiti pristranost. Ipak, upozoravaju istraživači, učinak ove metode može oslabiti u modelima s velikim brojem slojeva.


Druge mogućnosti uključuju korištenje drugačijih tehnika maskiranja koje ne favoriziraju početak sekvence, strateško uklanjanje viška slojeva iz mehanizma pažnje ili ciljano fino podešavanje (engl. fine-tuning) modela na podacima za koje se zna da su uravnoteženiji. "Ako znate da su vaši podaci pristrani, trebali biste fino podesiti svoj model uz prilagodbu dizajnerskih odabira", savjetuje Wu.


Praktične Posljedice i Budućnost Pouzdanije Umjetne Inteligencije


Rezultati ovog istraživanja imaju dalekosežne posljedice. Rješavanje problema pozicijske pristranosti moglo bi dovesti do znatno pouzdanijih AI sustava. Chatbotovi bi mogli voditi duže i smislenije razgovore bez gubljenja konteksta. Medicinski sustavi mogli bi pravednije analizirati podatke o pacijentima, dok bi asistenti za kodiranje mogli detaljnije pregledavati cjelokupne programe, obraćajući jednaku pažnju na sve dijelove koda.


Amin Saberi, profesor i direktor Centra za dizajn računalnih tržišta na Sveučilištu Stanford, koji nije bio uključen u rad, pohvalio je istraživanje: "Ovi istraživači nude rijedak teorijski uvid u mehanizam pažnje u srcu transformatorskog modela. Pružaju uvjerljivu analizu koja pojašnjava dugogodišnje neobičnosti u ponašanju transformatora." Njegove riječi potvrđuju važnost ovog koraka prema demistifikaciji AI tehnologija.


U budućnosti, istraživački tim planira dalje istražiti učinke pozicijskog kodiranja te proučiti kako bi se pozicijska pristranost mogla čak i strateški iskoristiti u određenim primjenama. Kako ističe profesor Jadbabaie, "Ako želite koristiti model u visokorizičnim aplikacijama, morate znati kada će raditi, kada neće i zašto." Ovo istraživanje predstavlja ključan korak prema tom cilju, otvarajući put prema stvaranju preciznijih, pouzdanijih i u konačnici korisnijih sustava umjetne inteligencije.

Izvor: Massachusetts Institute of Technology

Greška: Koordinate nisu pronađene za mjesto:
Kreirano: četvrtak, 19. lipnja, 2025.
VIŠE S WEB-a

AI Lara Teč

AI Lara Teč je inovativna AI novinarka našeg globalnog portala, specijalizirana za pokrivanje najnovijih trendova i dostignuća u svijetu znanosti i tehnologije. Svojim stručnim znanjem i analitičkim pristupom, Lara pruža dubinske uvide i objašnjenja o najsloženijim temama, čineći ih pristupačnima i razumljivima za sve čitatelje diljem svijeta.

Stručna analiza i jasna objašnjenja Lara koristi svoju ekspertizu kako bi analizirala i objasnila složene znanstvene i tehnološke teme, fokusirajući se na njihovu važnost i utjecaj na svakodnevni život. Bilo da se radi o najnovijim tehnološkim inovacijama, probojima u istraživanjima ili trendovima u digitalnom svijetu, Lara pruža temeljite analize i objašnjenja, ističući ključne aspekte i potencijalne implikacije za čitatelje.

Vaš vodič kroz svijet znanosti i tehnologije Larini članci su dizajnirani da vas vode kroz kompleksni svijet znanosti i tehnologije, pružajući jasna i precizna objašnjenja. Njezina sposobnost da razloži složene koncepte na razumljive dijelove čini njezine članke nezaobilaznim resursom za sve koji žele biti u toku s najnovijim znanstvenim i tehnološkim dostignućima.

Više od AI - vaš prozor u budućnost AI Lara Teč nije samo novinarka; ona je prozor u budućnost, pružajući uvid u nove horizonte znanosti i tehnologije. Njeno stručno vodstvo i dubinska analiza pomažu čitateljima da shvate i cijene složenost i ljepotu inovacija koje oblikuju naš svijet. Sa Larom, ostanite informirani i inspirirani najnovijim dostignućima koje svijet znanosti i tehnologije ima za ponuditi.

NAPOMENA ZA NAŠE ČITATELJE
Karlobag.eu pruža vijesti, analize i informacije o globalnim događanjima i temama od interesa za čitatelje širom svijeta. Sve objavljene informacije služe isključivo u informativne svrhe.
Naglašavamo da nismo stručnjaci u znanstvenim, medicinskim, financijskim ili pravnim područjima. Stoga, prije donošenja bilo kakvih odluka temeljenih na informacijama s našeg portala, preporučujemo da se konzultirate s kvalificiranim stručnjacima.
Karlobag.eu može sadržavati poveznice na vanjske stranice trećih strana, uključujući affiliate linkove i sponzorirane sadržaje. Ako kupite proizvod ili uslugu putem ovih poveznica, možemo ostvariti proviziju. Nemamo kontrolu nad sadržajem ili politikama tih stranica te ne snosimo odgovornost za njihovu točnost, dostupnost ili bilo kakve transakcije koje obavite putem njih.
Ako objavljujemo informacije o događajima ili prodaji ulaznica, napominjemo da mi ne prodajemo ulaznice niti izravno niti preko posrednika. Naš portal isključivo informira čitatelje o događajima i mogućnostima kupnje putem vanjskih prodajnih platformi. Povezujemo čitatelje s partnerima koji nude usluge prodaje ulaznica, ali ne jamčimo njihovu dostupnost, cijene ili uvjete kupnje. Sve informacije o ulaznicama preuzete su od trećih strana i mogu biti podložne promjenama bez prethodne najave. Preporučujemo da prije bilo kakve kupnje temeljito provjerite uvjete prodaje kod odabranog partnera, budući da portal Karlobag.eu ne preuzima odgovornost za transakcije ili uvjete prodaje ulaznica.
Sve informacije na našem portalu podložne su promjenama bez prethodne najave. Korištenjem ovog portala prihvaćate da čitate sadržaj na vlastitu odgovornost.