Istraživači s MIT-a suočili su se s izazovom vrednovanja velikih jezičnih modela (LLM) zbog njihove široke primjene. U tradicionalnim pristupima teško je obuhvatiti sve vrste pitanja na koja modeli mogu odgovarati. Kako bi riješili ovaj problem, fokusirali su se na ljudske percepcije i uvjerenja o sposobnostima tih modela. Ključni koncept u njihovom istraživanju je funkcija ljudske generalizacije koja modelira način na koji ljudi ažuriraju svoja uvjerenja o LLM-ovima nakon interakcije s njima.
Na primjer, student mora odlučiti hoće li model pomoći pri sastavljanju određenog e-maila, dok liječnik mora procijeniti kada će model biti koristan u dijagnosticiranju pacijenata. Istraživači su razvili okvir za ocjenu LLM-ova na temelju njihove usklađenosti s ljudskim uvjerenjima o izvedbi na određenim zadacima.
Istraživanje funkcije ljudske generalizacije
Kako komuniciramo s drugima, formiramo uvjerenja o njihovim znanjima. Ako je prijatelj sklon ispravljanju gramatike, mogli bismo pretpostaviti da je dobar u sastavljanju rečenica, iako ga nikada nismo pitali za to. Slično tome, istraživači su htjeli pokazati da se isti proces događa kada formiramo uvjerenja o jezičnim modelima.
Definirali su funkciju ljudske generalizacije koja uključuje postavljanje pitanja, promatranje odgovora i zaključivanje o sposobnostima osobe ili modela za slična pitanja. Ako netko vidi da LLM ispravno odgovara na pitanja o inverziji matrica, mogao bi pretpostaviti da je također dobar u jednostavnoj aritmetici. Model koji ne odgovara ovoj funkciji može zakazati kada se koristi.
Istraživači su proveli anketu kako bi izmjerili kako ljudi generaliziraju kada komuniciraju s LLM-ovima i drugim ljudima. Pokazali su sudionicima pitanja koja su osobe ili LLM-ovi točno ili pogrešno odgovorili te ih pitali misle li da bi osoba ili LLM točno odgovorili na srodno pitanje. Rezultati su pokazali da su sudionici bili prilično dobri u predviđanju izvedbe ljudi, ali su bili lošiji u predviđanju izvedbe LLM-ova.
Mjerenje nesklada
Istraživanje je otkrilo da su sudionici bili skloniji ažurirati svoja uvjerenja o LLM-ovima kada su modeli davali netočne odgovore nego kada su odgovarali točno. Također su vjerovali da izvedba LLM-ova na jednostavnim pitanjima nema utjecaja na njihovu izvedbu na složenijim pitanjima. U situacijama gdje su sudionici davali veću težinu netočnim odgovorima, jednostavniji modeli su nadmašili veće modele poput GPT-4.
Daljnje istraživanje i razvoj
Jedno moguće objašnjenje zašto su ljudi lošiji u generaliziranju za LLM-ove može biti njihova novost – ljudi imaju puno manje iskustva u interakciji s LLM-ovima nego s drugim ljudima. U budućnosti, istraživači žele provesti dodatne studije o tome kako se ljudska uvjerenja o LLM-ovima razvijaju tijekom vremena s većom interakcijom s modelima. Također žele istražiti kako bi se ljudska generalizacija mogla uključiti u razvoj LLM-ova.
Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika.
Praktične implikacije ovog istraživanja su značajne. Ako ljudi nemaju pravo razumijevanje kada će LLM-ovi biti točni i kada će pogriješiti, vjerojatnije je da će uočiti pogreške i možda se obeshrabriti za daljnju uporabu. Ova studija naglašava važnost usklađivanja modela s ljudskim razumijevanjem generalizacije. Kako se razvijaju sve složeniji jezični modeli, potrebno je integrirati ljudsku perspektivu u njihov razvoj i evaluaciju.
Praktične implikacije
Ovo istraživanje djelomično je financirano od strane Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Važno je napomenuti da istraživači također žele koristiti svoj skup podataka kao referentnu točku za usporedbu izvedbe LLM-ova u odnosu na funkciju ljudske generalizacije, što bi moglo pomoći u poboljšanju izvedbe modela u stvarnim situacijama.
Osim toga, istraživači planiraju daljnja istraživanja kako bi razumjeli kako se ljudska uvjerenja o LLM-ovima razvijaju s vremenom kroz interakciju s modelima. Žele istražiti kako se ljudska generalizacija može integrirati u razvoj LLM-ova kako bi se poboljšala njihova izvedba i povećalo povjerenje korisnika. Praktične implikacije ovog istraživanja su dalekosežne, posebno u kontekstu primjene LLM-ova u raznim industrijama, gdje je razumijevanje i povjerenje korisnika ključno za uspješno usvajanje tehnologije.
Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika. Važno je naglasiti da su praktične implikacije ovog istraživanja značajne. Ako ljudi nemaju pravo razumijevanje kada će LLM-ovi biti točni i kada će pogriješiti, vjerojatnije je da će uočiti pogreške i možda se obeshrabriti za daljnju uporabu.
Ova studija naglašava važnost usklađivanja modela s ljudskim razumijevanjem generalizacije. Kako se razvijaju sve složeniji jezični modeli, potrebno je integrirati ljudsku perspektivu u njihov razvoj i evaluaciju. Ovo istraživanje djelomično je financirano od strane Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Važno je napomenuti da istraživači također žele koristiti svoj skup podataka kao referentnu točku za usporedbu izvedbe LLM-ova u odnosu na funkciju ljudske generalizacije, što bi moglo pomoći u poboljšanju izvedbe modela u stvarnim situacijama.
Praktične implikacije ovog istraživanja su dalekosežne, posebno u kontekstu primjene LLM-ova u raznim industrijama, gdje je razumijevanje i povjerenje korisnika ključno za uspješno usvajanje tehnologije. Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika.
Izvor: Massachusetts Institute of Technology
Czas utworzenia: 29 lipca, 2024
Uwaga dla naszych czytelników:
Portal Karlobag.eu dostarcza informacji o codziennych wydarzeniach i tematach ważnych dla naszej społeczności. Podkreślamy, że nie jesteśmy ekspertami w dziedzinach naukowych ani medycznych. Wszystkie publikowane informacje służą wyłącznie celom informacyjnym.
Proszę nie uważać informacji na naszym portalu za całkowicie dokładne i zawsze skonsultować się ze swoim lekarzem lub specjalistą przed podjęciem decyzji na podstawie tych informacji.
Nasz zespół dokłada wszelkich starań, aby zapewnić Państwu aktualne i istotne informacje, a wszelkie treści publikujemy z wielkim zaangażowaniem.
Zapraszamy do podzielenia się z nami swoimi historiami z Karlobag!
Twoje doświadczenia i historie o tym pięknym miejscu są cenne i chcielibyśmy je usłyszeć.
Możesz je przesłać napisz do nas na adres karlobag@karlobag.eu.
Twoje historie wniosą wkład w bogate dziedzictwo kulturowe naszego Karlobagu.
Dziękujemy, że podzieliłeś się z nami swoimi wspomnieniami!