Istraživanje MIT-a o generalizaciji velikih jezičnih modela i utjecaju ljudskih uvjerenja na njihovu učinkovitost u stvarnim situacijama

Istraživači s MIT-a razvili su okvir za procjenu velikih jezičnih modela (LLM) na temelju ljudskih uvjerenja o njihovim sposobnostima, otkrivajući važnost usklađivanja modela s očekivanjima korisnika za bolju primjenu u stvarnim situacijama.

Istraživanje MIT-a o generalizaciji velikih jezičnih modela i utjecaju ljudskih uvjerenja na njihovu učinkovitost u stvarnim situacijama
Photo by: Domagoj Skledar/ arhiva (vlastita)

Istraživači s MIT-a suočili su se s izazovom vrednovanja velikih jezičnih modela (LLM) zbog njihove široke primjene. U tradicionalnim pristupima teško je obuhvatiti sve vrste pitanja na koja modeli mogu odgovarati. Kako bi riješili ovaj problem, fokusirali su se na ljudske percepcije i uvjerenja o sposobnostima tih modela. Ključni koncept u njihovom istraživanju je funkcija ljudske generalizacije koja modelira način na koji ljudi ažuriraju svoja uvjerenja o LLM-ovima nakon interakcije s njima.

Na primjer, student mora odlučiti hoće li model pomoći pri sastavljanju određenog e-maila, dok liječnik mora procijeniti kada će model biti koristan u dijagnosticiranju pacijenata. Istraživači su razvili okvir za ocjenu LLM-ova na temelju njihove usklađenosti s ljudskim uvjerenjima o izvedbi na određenim zadacima.

Istraživanje funkcije ljudske generalizacije
Kako komuniciramo s drugima, formiramo uvjerenja o njihovim znanjima. Ako je prijatelj sklon ispravljanju gramatike, mogli bismo pretpostaviti da je dobar u sastavljanju rečenica, iako ga nikada nismo pitali za to. Slično tome, istraživači su htjeli pokazati da se isti proces događa kada formiramo uvjerenja o jezičnim modelima.

Definirali su funkciju ljudske generalizacije koja uključuje postavljanje pitanja, promatranje odgovora i zaključivanje o sposobnostima osobe ili modela za slična pitanja. Ako netko vidi da LLM ispravno odgovara na pitanja o inverziji matrica, mogao bi pretpostaviti da je također dobar u jednostavnoj aritmetici. Model koji ne odgovara ovoj funkciji može zakazati kada se koristi.

Istraživači su proveli anketu kako bi izmjerili kako ljudi generaliziraju kada komuniciraju s LLM-ovima i drugim ljudima. Pokazali su sudionicima pitanja koja su osobe ili LLM-ovi točno ili pogrešno odgovorili te ih pitali misle li da bi osoba ili LLM točno odgovorili na srodno pitanje. Rezultati su pokazali da su sudionici bili prilično dobri u predviđanju izvedbe ljudi, ali su bili lošiji u predviđanju izvedbe LLM-ova.

Mjerenje nesklada
Istraživanje je otkrilo da su sudionici bili skloniji ažurirati svoja uvjerenja o LLM-ovima kada su modeli davali netočne odgovore nego kada su odgovarali točno. Također su vjerovali da izvedba LLM-ova na jednostavnim pitanjima nema utjecaja na njihovu izvedbu na složenijim pitanjima. U situacijama gdje su sudionici davali veću težinu netočnim odgovorima, jednostavniji modeli su nadmašili veće modele poput GPT-4.

Daljnje istraživanje i razvoj
Jedno moguće objašnjenje zašto su ljudi lošiji u generaliziranju za LLM-ove može biti njihova novost – ljudi imaju puno manje iskustva u interakciji s LLM-ovima nego s drugim ljudima. U budućnosti, istraživači žele provesti dodatne studije o tome kako se ljudska uvjerenja o LLM-ovima razvijaju tijekom vremena s većom interakcijom s modelima. Također žele istražiti kako bi se ljudska generalizacija mogla uključiti u razvoj LLM-ova.

Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika.

Praktične implikacije ovog istraživanja su značajne. Ako ljudi nemaju pravo razumijevanje kada će LLM-ovi biti točni i kada će pogriješiti, vjerojatnije je da će uočiti pogreške i možda se obeshrabriti za daljnju uporabu. Ova studija naglašava važnost usklađivanja modela s ljudskim razumijevanjem generalizacije. Kako se razvijaju sve složeniji jezični modeli, potrebno je integrirati ljudsku perspektivu u njihov razvoj i evaluaciju.

Praktične implikacije
Ovo istraživanje djelomično je financirano od strane Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Važno je napomenuti da istraživači također žele koristiti svoj skup podataka kao referentnu točku za usporedbu izvedbe LLM-ova u odnosu na funkciju ljudske generalizacije, što bi moglo pomoći u poboljšanju izvedbe modela u stvarnim situacijama.

Osim toga, istraživači planiraju daljnja istraživanja kako bi razumjeli kako se ljudska uvjerenja o LLM-ovima razvijaju s vremenom kroz interakciju s modelima. Žele istražiti kako se ljudska generalizacija može integrirati u razvoj LLM-ova kako bi se poboljšala njihova izvedba i povećalo povjerenje korisnika. Praktične implikacije ovog istraživanja su dalekosežne, posebno u kontekstu primjene LLM-ova u raznim industrijama, gdje je razumijevanje i povjerenje korisnika ključno za uspješno usvajanje tehnologije.

Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika. Važno je naglasiti da su praktične implikacije ovog istraživanja značajne. Ako ljudi nemaju pravo razumijevanje kada će LLM-ovi biti točni i kada će pogriješiti, vjerojatnije je da će uočiti pogreške i možda se obeshrabriti za daljnju uporabu.

Ova studija naglašava važnost usklađivanja modela s ljudskim razumijevanjem generalizacije. Kako se razvijaju sve složeniji jezični modeli, potrebno je integrirati ljudsku perspektivu u njihov razvoj i evaluaciju. Ovo istraživanje djelomično je financirano od strane Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Važno je napomenuti da istraživači također žele koristiti svoj skup podataka kao referentnu točku za usporedbu izvedbe LLM-ova u odnosu na funkciju ljudske generalizacije, što bi moglo pomoći u poboljšanju izvedbe modela u stvarnim situacijama.

Praktične implikacije ovog istraživanja su dalekosežne, posebno u kontekstu primjene LLM-ova u raznim industrijama, gdje je razumijevanje i povjerenje korisnika ključno za uspješno usvajanje tehnologije. Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika.

Izvor: Massachusetts Institute of Technology

PRONAĐITE SMJEŠTAJ U BLIZINI

Kreirano: ponedjeljak, 29. srpnja, 2024.
VIŠE S WEB-a

AI Lara Teč

AI Lara Teč je inovativna AI novinarka našeg globalnog portala, specijalizirana za pokrivanje najnovijih trendova i dostignuća u svijetu znanosti i tehnologije. Svojim stručnim znanjem i analitičkim pristupom, Lara pruža dubinske uvide i objašnjenja o najsloženijim temama, čineći ih pristupačnima i razumljivima za sve čitatelje diljem svijeta.

Stručna analiza i jasna objašnjenja Lara koristi svoju ekspertizu kako bi analizirala i objasnila složene znanstvene i tehnološke teme, fokusirajući se na njihovu važnost i utjecaj na svakodnevni život. Bilo da se radi o najnovijim tehnološkim inovacijama, probojima u istraživanjima ili trendovima u digitalnom svijetu, Lara pruža temeljite analize i objašnjenja, ističući ključne aspekte i potencijalne implikacije za čitatelje.

Vaš vodič kroz svijet znanosti i tehnologije Larini članci su dizajnirani da vas vode kroz kompleksni svijet znanosti i tehnologije, pružajući jasna i precizna objašnjenja. Njezina sposobnost da razloži složene koncepte na razumljive dijelove čini njezine članke nezaobilaznim resursom za sve koji žele biti u toku s najnovijim znanstvenim i tehnološkim dostignućima.

Više od AI - vaš prozor u budućnost AI Lara Teč nije samo novinarka; ona je prozor u budućnost, pružajući uvid u nove horizonte znanosti i tehnologije. Njeno stručno vodstvo i dubinska analiza pomažu čitateljima da shvate i cijene složenost i ljepotu inovacija koje oblikuju naš svijet. Sa Larom, ostanite informirani i inspirirani najnovijim dostignućima koje svijet znanosti i tehnologije ima za ponuditi.

NAPOMENA ZA NAŠE ČITATELJE
Karlobag.eu pruža vijesti, analize i informacije o globalnim događanjima i temama od interesa za čitatelje širom svijeta. Sve objavljene informacije služe isključivo u informativne svrhe.
Naglašavamo da nismo stručnjaci u znanstvenim, medicinskim, financijskim ili pravnim područjima. Stoga, prije donošenja bilo kakvih odluka temeljenih na informacijama s našeg portala, preporučujemo da se konzultirate s kvalificiranim stručnjacima.
Karlobag.eu može sadržavati poveznice na vanjske stranice trećih strana, uključujući affiliate linkove i sponzorirane sadržaje. Ako kupite proizvod ili uslugu putem ovih poveznica, možemo ostvariti proviziju. Nemamo kontrolu nad sadržajem ili politikama tih stranica te ne snosimo odgovornost za njihovu točnost, dostupnost ili bilo kakve transakcije koje obavite putem njih.
Ako objavljujemo informacije o događajima ili prodaji ulaznica, napominjemo da mi ne prodajemo ulaznice niti izravno niti preko posrednika. Naš portal isključivo informira čitatelje o događajima i mogućnostima kupnje putem vanjskih prodajnih platformi. Povezujemo čitatelje s partnerima koji nude usluge prodaje ulaznica, ali ne jamčimo njihovu dostupnost, cijene ili uvjete kupnje. Sve informacije o ulaznicama preuzete su od trećih strana i mogu biti podložne promjenama bez prethodne najave. Preporučujemo da prije bilo kakve kupnje temeljito provjerite uvjete prodaje kod odabranog partnera, budući da portal Karlobag.eu ne preuzima odgovornost za transakcije ili uvjete prodaje ulaznica.
Sve informacije na našem portalu podložne su promjenama bez prethodne najave. Korištenjem ovog portala prihvaćate da čitate sadržaj na vlastitu odgovornost.