Postavke privatnosti

Istraživanje MIT-a o generalizaciji velikih jezičnih modela i utjecaju ljudskih uvjerenja na njihovu učinkovitost u stvarnim situacijama

Istraživači s MIT-a razvili su okvir za procjenu velikih jezičnih modela (LLM) na temelju ljudskih uvjerenja o njihovim sposobnostima, otkrivajući važnost usklađivanja modela s očekivanjima korisnika za bolju primjenu u stvarnim situacijama.

Istraživanje MIT-a o generalizaciji velikih jezičnih modela i utjecaju ljudskih uvjerenja na njihovu učinkovitost u stvarnim situacijama
Photo by: Domagoj Skledar/ arhiva (vlastita)

Istraživači s MIT-a suočili su se s izazovom vrednovanja velikih jezičnih modela (LLM) zbog njihove široke primjene. U tradicionalnim pristupima teško je obuhvatiti sve vrste pitanja na koja modeli mogu odgovarati. Kako bi riješili ovaj problem, fokusirali su se na ljudske percepcije i uvjerenja o sposobnostima tih modela. Ključni koncept u njihovom istraživanju je funkcija ljudske generalizacije koja modelira način na koji ljudi ažuriraju svoja uvjerenja o LLM-ovima nakon interakcije s njima.

Na primjer, student mora odlučiti hoće li model pomoći pri sastavljanju određenog e-maila, dok liječnik mora procijeniti kada će model biti koristan u dijagnosticiranju pacijenata. Istraživači su razvili okvir za ocjenu LLM-ova na temelju njihove usklađenosti s ljudskim uvjerenjima o izvedbi na određenim zadacima.

Istraživanje funkcije ljudske generalizacije
Kako komuniciramo s drugima, formiramo uvjerenja o njihovim znanjima. Ako je prijatelj sklon ispravljanju gramatike, mogli bismo pretpostaviti da je dobar u sastavljanju rečenica, iako ga nikada nismo pitali za to. Slično tome, istraživači su htjeli pokazati da se isti proces događa kada formiramo uvjerenja o jezičnim modelima.

Definirali su funkciju ljudske generalizacije koja uključuje postavljanje pitanja, promatranje odgovora i zaključivanje o sposobnostima osobe ili modela za slična pitanja. Ako netko vidi da LLM ispravno odgovara na pitanja o inverziji matrica, mogao bi pretpostaviti da je također dobar u jednostavnoj aritmetici. Model koji ne odgovara ovoj funkciji može zakazati kada se koristi.

Istraživači su proveli anketu kako bi izmjerili kako ljudi generaliziraju kada komuniciraju s LLM-ovima i drugim ljudima. Pokazali su sudionicima pitanja koja su osobe ili LLM-ovi točno ili pogrešno odgovorili te ih pitali misle li da bi osoba ili LLM točno odgovorili na srodno pitanje. Rezultati su pokazali da su sudionici bili prilično dobri u predviđanju izvedbe ljudi, ali su bili lošiji u predviđanju izvedbe LLM-ova.

Mjerenje nesklada
Istraživanje je otkrilo da su sudionici bili skloniji ažurirati svoja uvjerenja o LLM-ovima kada su modeli davali netočne odgovore nego kada su odgovarali točno. Također su vjerovali da izvedba LLM-ova na jednostavnim pitanjima nema utjecaja na njihovu izvedbu na složenijim pitanjima. U situacijama gdje su sudionici davali veću težinu netočnim odgovorima, jednostavniji modeli su nadmašili veće modele poput GPT-4.

Daljnje istraživanje i razvoj
Jedno moguće objašnjenje zašto su ljudi lošiji u generaliziranju za LLM-ove može biti njihova novost – ljudi imaju puno manje iskustva u interakciji s LLM-ovima nego s drugim ljudima. U budućnosti, istraživači žele provesti dodatne studije o tome kako se ljudska uvjerenja o LLM-ovima razvijaju tijekom vremena s većom interakcijom s modelima. Također žele istražiti kako bi se ljudska generalizacija mogla uključiti u razvoj LLM-ova.

Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika.

Praktične implikacije ovog istraživanja su značajne. Ako ljudi nemaju pravo razumijevanje kada će LLM-ovi biti točni i kada će pogriješiti, vjerojatnije je da će uočiti pogreške i možda se obeshrabriti za daljnju uporabu. Ova studija naglašava važnost usklađivanja modela s ljudskim razumijevanjem generalizacije. Kako se razvijaju sve složeniji jezični modeli, potrebno je integrirati ljudsku perspektivu u njihov razvoj i evaluaciju.

Praktične implikacije
Ovo istraživanje djelomično je financirano od strane Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Važno je napomenuti da istraživači također žele koristiti svoj skup podataka kao referentnu točku za usporedbu izvedbe LLM-ova u odnosu na funkciju ljudske generalizacije, što bi moglo pomoći u poboljšanju izvedbe modela u stvarnim situacijama.

Osim toga, istraživači planiraju daljnja istraživanja kako bi razumjeli kako se ljudska uvjerenja o LLM-ovima razvijaju s vremenom kroz interakciju s modelima. Žele istražiti kako se ljudska generalizacija može integrirati u razvoj LLM-ova kako bi se poboljšala njihova izvedba i povećalo povjerenje korisnika. Praktične implikacije ovog istraživanja su dalekosežne, posebno u kontekstu primjene LLM-ova u raznim industrijama, gdje je razumijevanje i povjerenje korisnika ključno za uspješno usvajanje tehnologije.

Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika. Važno je naglasiti da su praktične implikacije ovog istraživanja značajne. Ako ljudi nemaju pravo razumijevanje kada će LLM-ovi biti točni i kada će pogriješiti, vjerojatnije je da će uočiti pogreške i možda se obeshrabriti za daljnju uporabu.

Ova studija naglašava važnost usklađivanja modela s ljudskim razumijevanjem generalizacije. Kako se razvijaju sve složeniji jezični modeli, potrebno je integrirati ljudsku perspektivu u njihov razvoj i evaluaciju. Ovo istraživanje djelomično je financirano od strane Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Važno je napomenuti da istraživači također žele koristiti svoj skup podataka kao referentnu točku za usporedbu izvedbe LLM-ova u odnosu na funkciju ljudske generalizacije, što bi moglo pomoći u poboljšanju izvedbe modela u stvarnim situacijama.

Praktične implikacije ovog istraživanja su dalekosežne, posebno u kontekstu primjene LLM-ova u raznim industrijama, gdje je razumijevanje i povjerenje korisnika ključno za uspješno usvajanje tehnologije. Jedna od ključnih točaka istraživanja je potreba za boljim razumijevanjem i integriranjem ljudske generalizacije u razvoj i evaluaciju LLM-ova. Predloženi okvir uzima u obzir ljudske faktore prilikom primjene općih LLM-ova kako bi se poboljšala njihova izvedba u stvarnom svijetu i povećalo povjerenje korisnika.

Izvor: Massachusetts Institute of Technology

Unterkünfte in der Nähe finden

Erstellungszeitpunkt: 29 Juli, 2024

Redaktion für Wissenschaft und Technologie

Unsere Redaktion für Wissenschaft und Technologie ist aus einer langjährigen Leidenschaft für das Erforschen, Interpretieren und Vermitteln komplexer Themen an alltägliche Leser entstanden. Bei uns schreiben Mitarbeiter und freiwillige Autoren, die seit Jahrzehnten die Entwicklungen in Wissenschaft und technologischer Innovation verfolgen – von Laborentdeckungen bis zu Lösungen, die den Alltag verändern. Obwohl wir in der Mehrzahl schreiben, steht hinter jedem Text eine echte Person mit umfangreicher redaktioneller und journalistischer Erfahrung sowie großem Respekt gegenüber Fakten und überprüfbaren Informationen.

Unsere Redaktion arbeitet aus der Überzeugung heraus, dass Wissenschaft am stärksten ist, wenn sie für alle zugänglich ist. Deshalb streben wir nach Klarheit, Präzision und Verständlichkeit, ohne jene Vereinfachungen, die die Qualität des Inhalts mindern würden. Oft verbringen wir Stunden mit dem Studium von Forschungsarbeiten, technischen Dokumenten und Fachquellen, um jedes Thema so zu präsentieren, dass es den Leser interessiert und nicht belastet. In jedem Text versuchen wir, wissenschaftliche Erkenntnisse mit dem realen Leben zu verbinden und zu zeigen, wie Ideen aus Forschungszentren, Universitäten und Technologielaboren die Welt um uns herum gestalten.

Unsere langjährige journalistische Erfahrung ermöglicht uns zu erkennen, was für den Leser wirklich wichtig ist – ob es um Fortschritte in der künstlichen Intelligenz geht, medizinische Entdeckungen, Energielösungen, Weltraummissionen oder Geräte, die unseren Alltag erreichen, bevor wir uns überhaupt ihre Möglichkeiten vorstellen können. Unser Blick auf Technologie ist nicht nur technisch; uns interessieren auch die menschlichen Geschichten hinter großen Entwicklungen – Forscher, die jahrelang an Projekten arbeiten, Ingenieure, die Ideen in funktionierende Systeme verwandeln, und Visionäre, die die Grenzen des Möglichen erweitern.

Auch ein starkes Verantwortungsgefühl leitet uns bei der Arbeit. Wir möchten, dass der Leser Vertrauen in die von uns gelieferten Informationen haben kann, daher überprüfen wir Quellen, vergleichen Daten und zögern mit der Veröffentlichung, wenn etwas nicht ganz klar ist. Vertrauen entsteht langsamer, als Nachrichten geschrieben werden, doch wir glauben, dass nur solch ein Journalismus langfristig wertvoll ist.

Für uns ist Technologie mehr als Geräte, und Wissenschaft mehr als Theorie. Es sind Bereiche, die Fortschritt antreiben, die Gesellschaft prägen und neue Möglichkeiten eröffnen für alle, die verstehen wollen, wie die Welt heute funktioniert und wohin sie morgen geht. Deshalb gehen wir jedes Thema mit Ernsthaftigkeit, aber auch mit Neugier an – denn gerade Neugier öffnet die Tür zu den besten Texten.

Unsere Mission ist es, den Lesern eine Welt näherzubringen, die sich schneller denn je verändert, im Bewusstsein, dass qualitativ hochwertiger Journalismus eine Brücke sein kann zwischen Experten, Innovatoren und all jenen, die verstehen wollen, was hinter den Schlagzeilen geschieht. Darin sehen wir unsere wahre Aufgabe: das Komplexe verständlich zu machen, das Entfernte nah und das Unbekannte inspirierend.

HINWEIS FÜR UNSERE LESER
Karlobag.eu bietet Nachrichten, Analysen und Informationen zu globalen Ereignissen und Themen, die für Leser weltweit von Interesse sind. Alle veröffentlichten Informationen dienen ausschließlich zu Informationszwecken.
Wir betonen, dass wir keine Experten in den Bereichen Wissenschaft, Medizin, Finanzen oder Recht sind. Daher empfehlen wir, vor der Entscheidungsfindung auf Basis der Informationen unseres Portals, sich mit qualifizierten Experten zu beraten.
Karlobag.eu kann Links zu externen Drittanbieterseiten enthalten, einschließlich Affiliate-Links und gesponserten Inhalten. Wenn Sie über diese Links ein Produkt oder eine Dienstleistung kaufen, können wir eine Provision erhalten. Wir haben keine Kontrolle über die Inhalte oder Richtlinien dieser Seiten und übernehmen keine Verantwortung für deren Genauigkeit, Verfügbarkeit oder für Transaktionen, die Sie über diese Seiten tätigen.
Wenn wir Informationen über Veranstaltungen oder Ticketverkäufe veröffentlichen, beachten Sie bitte, dass wir weder direkt noch über Vermittler Tickets verkaufen. Unser Portal informiert ausschließlich über Veranstaltungen und Kaufmöglichkeiten über externe Verkaufsplattformen. Wir verbinden Leser mit Partnern, die Ticketverkaufsdienste anbieten, garantieren jedoch nicht deren Verfügbarkeit, Preise oder Kaufbedingungen. Alle Ticketinformationen werden von Dritten bezogen und können ohne vorherige Ankündigung Änderungen unterliegen. Wir empfehlen, die Verkaufsbedingungen beim gewählten Partner vor einem Kauf sorgfältig zu überprüfen, da das Portal Karlobag.eu keine Verantwortung für Transaktionen oder Verkaufsbedingungen von Tickets übernimmt.
Alle Informationen auf unserem Portal können ohne vorherige Ankündigung geändert werden. Durch die Nutzung dieses Portals stimmen Sie zu, dass Sie die Inhalte auf eigenes Risiko lesen.