Istraživači s MIT-a suočili su se s izazovom vrednovanja velikih jezičnih modela (LLM) zbog njihove široke primjene. U tradicionalnim pristupima teško je obuhvatiti sve vrste pitanja na koja modeli mogu odgovarati. Kako bi riješili ovaj problem, fokusirali su se na ljudske percepcije i uvjerenja o sposobnostima tih modela. Ključni koncept u njihovom istraživanju je funkcija ljudske generalizacije koja modelira način na koji ljudi ažuriraju svoja uvjerenja o LLM-ovima nakon interakcije s njima.
Na primjer, student mora odlučiti hoće li model pomoći pri sastavljanju određenog e-maila, dok liječnik mora procijeniti kada će model biti koristan u dijagnosticiranju pacijenata. Istraživači su razvili okvir za ocjenu LLM-ova na temelju njihove usklađenosti s ljudskim uvjerenjima o izvedbi na određenim zadacima.
Istraživanje funkcije ljudske generalizacije
Kako komuniciramo s drugima, formiramo uvjerenja o njihovim znanjima. Ako je prijatelj sklon ispravljanju gramatike, mogli bismo pretpostaviti da je dobar u sastavljanju rečenica, iako ga nikada nismo pitali za to. Slično tome, istraživači su htjeli pokazati da se isti proces događa kada formiramo uvjerenja o jezičnim modelima.
Definirali su funkciju ljudske generalizacije koja uključuje postavljanje pitanja, promatranje odgovora i zaključivanje o sposobnostima osobe ili modela za slična pitanja. Ako netko vidi da LLM ispravno odgovara na pitanja o inverziji matrica, mogao bi pretpostaviti da je također dobar u jednostavnoj aritmetici. Model koji ne odgovara ovoj funkciji može zakazati kada se koristi.
Istraživači su proveli anketu kako bi izmjerili kako ljudi generaliziraju kada komuniciraju s LLM-ovima i drugim ljudima. Pokazali su sudionicima pitanja koja su osobe ili LLM-ovi točno ili pogrešno odgovorili te ih pitali misle li da bi osoba ili LLM točno odgovorili na srodno pitanje. Rezultati su pokazali da su sudionici bili prilično dobri u predviđanju izvedbe ljudi, ali su bili lošiji u predviđanju izvedbe LLM-ova.
Mjerenje nesklada
Istraživanje je otkrilo da su sudionici bili skloniji ažurirati svoja uvjerenja o LLM-ovima kada su modeli davali netočne odgovore nego kada su odgovarali točno. Također su vjerovali da izvedba LLM-ova na jednostavnim pitanjima nema utjecaja na njihovu izvedbu na složenijim pitanjima. U situacijama gdje su sudionici davali veću težinu netočnim odgovorima, jednostavniji modeli su nadmašili veće modele poput GPT-4.
Daljnje istraživanje i razvoj
Jedno moguće objašnjenje zašto su ljudi lošiji u generaliziranju za LLM-ove može biti njihova novost – ljudi imaju puno manje iskustva u interakciji s LLM-ovima nego s drugim ljudima. U budućnosti, istraživači žele provesti dodatne studije o tome kako se ljudska uvjerenja o LLM-ovima razvijaju tijekom vremena s većom interakcijom s modelima. Također žele istražiti kako bi se ljudska generalizacija mogla uključiti u razvoj LLM-ova.
Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika.
Praktične implikacije ovog istraživanja su značajne. Ako ljudi nemaju pravo razumijevanje kada će LLM-ovi biti točni i kada će pogriješiti, vjerojatnije je da će uočiti pogreške i možda se obeshrabriti za daljnju uporabu. Ova studija naglašava važnost usklađivanja modela s ljudskim razumijevanjem generalizacije. Kako se razvijaju sve složeniji jezični modeli, potrebno je integrirati ljudsku perspektivu u njihov razvoj i evaluaciju.
Praktične implikacije
Ovo istraživanje djelomično je financirano od strane Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Važno je napomenuti da istraživači također žele koristiti svoj skup podataka kao referentnu točku za usporedbu izvedbe LLM-ova u odnosu na funkciju ljudske generalizacije, što bi moglo pomoći u poboljšanju izvedbe modela u stvarnim situacijama.
Osim toga, istraživači planiraju daljnja istraživanja kako bi razumjeli kako se ljudska uvjerenja o LLM-ovima razvijaju s vremenom kroz interakciju s modelima. Žele istražiti kako se ljudska generalizacija može integrirati u razvoj LLM-ova kako bi se poboljšala njihova izvedba i povećalo povjerenje korisnika. Praktične implikacije ovog istraživanja su dalekosežne, posebno u kontekstu primjene LLM-ova u raznim industrijama, gdje je razumijevanje i povjerenje korisnika ključno za uspješno usvajanje tehnologije.
Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika. Važno je naglasiti da su praktične implikacije ovog istraživanja značajne. Ako ljudi nemaju pravo razumijevanje kada će LLM-ovi biti točni i kada će pogriješiti, vjerojatnije je da će uočiti pogreške i možda se obeshrabriti za daljnju uporabu.
Ova studija naglašava važnost usklađivanja modela s ljudskim razumijevanjem generalizacije. Kako se razvijaju sve složeniji jezični modeli, potrebno je integrirati ljudsku perspektivu u njihov razvoj i evaluaciju. Ovo istraživanje djelomično je financirano od strane Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Važno je napomenuti da istraživači također žele koristiti svoj skup podataka kao referentnu točku za usporedbu izvedbe LLM-ova u odnosu na funkciju ljudske generalizacije, što bi moglo pomoći u poboljšanju izvedbe modela u stvarnim situacijama.
Praktične implikacije ovog istraživanja su dalekosežne, posebno u kontekstu primjene LLM-ova u raznim industrijama, gdje je razumijevanje i povjerenje korisnika ključno za uspješno usvajanje tehnologije. Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika.
Izvor: Massachusetts Institute of Technology
Erstellungszeitpunkt: 29 Juli, 2024
Hinweis für unsere Leser:
Das Portal Karlobag.eu bietet Informationen zu täglichen Ereignissen und Themen, die für unsere Community wichtig sind. Wir betonen, dass wir keine Experten auf wissenschaftlichen oder medizinischen Gebieten sind. Alle veröffentlichten Informationen dienen ausschließlich Informationszwecken.
Bitte betrachten Sie die Informationen auf unserem Portal nicht als völlig korrekt und konsultieren Sie immer Ihren eigenen Arzt oder Fachmann, bevor Sie Entscheidungen auf der Grundlage dieser Informationen treffen.
Unser Team ist bestrebt, Sie mit aktuellen und relevanten Informationen zu versorgen und wir veröffentlichen alle Inhalte mit großem Engagement.
Wir laden Sie ein, Ihre Geschichten aus Karlobag mit uns zu teilen!
Ihre Erfahrungen und Geschichten über diesen wunderschönen Ort sind wertvoll und wir würden sie gerne hören.
Sie können sie gerne senden an uns unter karlobag@karlobag.eu.
Ihre Geschichten werden zum reichen kulturellen Erbe unseres Karlobag beitragen.
Vielen Dank, dass Sie Ihre Erinnerungen mit uns teilen!