Postavke privatnosti

Badania mit nad uogólnieniem dużych modeli językowych i wpływem ludzkich przekonań na ich skuteczność w rzeczywistych sytuacjach

Naukowcy z mit opracowali ramy oceny dużych modeli językowych (LLM) w oparciu o przekonania ludzi na temat ich umiejętności, ujawniając znaczenie dostosowania modelu do oczekiwań użytkowników w celu lepszego zastosowania w rzeczywistych sytuacjach.

Badania mit nad uogólnieniem dużych modeli językowych i wpływem ludzkich przekonań na ich skuteczność w rzeczywistych sytuacjach
Photo by: Domagoj Skledar/ arhiva (vlastita)

Badacze z MIT stanęli przed wyzwaniem oceny dużych modeli językowych (LLM) ze względu na ich szerokie zastosowanie. Tradycyjne podejścia mają trudności z objęciem wszystkich typów pytań, na które modele mogą odpowiedzieć. Aby rozwiązać ten problem, skupili się na ludzkich postrzeganiach i przekonaniach dotyczących zdolności tych modeli. Kluczowym pojęciem w ich badaniach jest funkcja generalizacji ludzkiej, która modeluje sposób, w jaki ludzie aktualizują swoje przekonania na temat LLM-ów po interakcji z nimi.

Na przykład student musi zdecydować, czy model pomoże w skomponowaniu konkretnego e-maila, podczas gdy lekarz musi ocenić, kiedy model będzie przydatny w diagnozowaniu pacjentów. Badacze opracowali ramy oceny LLM-ów w oparciu o ich zgodność z ludzkimi przekonaniami na temat wydajności w określonych zadaniach.

Badanie funkcji generalizacji ludzkiej
Komunikując się z innymi, tworzymy przekonania na temat ich wiedzy. Jeśli przyjaciel ma skłonność do poprawiania gramatyki, możemy założyć, że jest dobry w komponowaniu zdań, chociaż nigdy go o to nie pytaliśmy. Podobnie badacze chcieli pokazać, że ten sam proces zachodzi, gdy tworzymy przekonania na temat modeli językowych.

Zdefiniowali funkcję generalizacji ludzkiej jako zadawanie pytań, obserwowanie odpowiedzi i wnioskowanie na temat zdolności osoby lub modelu do podobnych pytań. Jeśli ktoś zobaczy, że LLM poprawnie odpowiada na pytania dotyczące inwersji macierzy, może założyć, że jest również dobry w prostej arytmetyce. Model, który nie odpowiada tej funkcji, może zawieść podczas użycia.

Badacze przeprowadzili ankietę, aby zmierzyć, jak ludzie generalizują podczas interakcji z LLM-ami i innymi ludźmi. Pokazali uczestnikom pytania, na które osoby lub LLM-y odpowiedziały poprawnie lub błędnie, i zapytali ich, czy uważają, że osoba lub LLM odpowiedzieliby poprawnie na powiązane pytanie. Wyniki pokazały, że uczestnicy byli całkiem dobrzy w przewidywaniu wydajności ludzi, ale gorzej w przewidywaniu wydajności LLM-ów.

Pomiar niezgodności
Badania wykazały, że uczestnicy byli bardziej skłonni do aktualizacji swoich przekonań na temat LLM-ów, gdy modele udzielały błędnych odpowiedzi, niż gdy odpowiadały poprawnie. Uważali również, że wydajność LLM-ów w prostych pytaniach nie wpływa na ich wydajność w bardziej złożonych pytaniach. W sytuacjach, w których uczestnicy przywiązywali większą wagę do błędnych odpowiedzi, prostsze modele przewyższały większe modele, takie jak GPT-4.

Dalsze badania i rozwój
Jednym z możliwych wyjaśnień, dlaczego ludzie są gorsi w generalizacji dla LLM-ów, może być ich nowość – ludzie mają znacznie mniej doświadczenia w interakcji z LLM-ami niż z innymi ludźmi. W przyszłości badacze chcą przeprowadzić dodatkowe badania nad tym, jak ludzkie przekonania na temat LLM-ów rozwijają się w czasie wraz ze zwiększoną interakcją z modelami. Chcą również zbadać, jak generalizacja ludzka mogłaby zostać włączona do rozwoju LLM-ów.

Jednym z kluczowych punktów badań jest potrzeba lepszego zrozumienia i integracji generalizacji ludzkiej w rozwój i ocenę LLM-ów. Proponowane ramy uwzględniają czynniki ludzkie podczas stosowania ogólnych LLM-ów w celu poprawy ich wydajności w rzeczywistych warunkach i zwiększenia zaufania użytkowników.

Praktyczne implikacje tych badań są znaczące. Jeśli ludzie nie mają właściwego zrozumienia, kiedy LLM-y będą dokładne, a kiedy popełnią błąd, są bardziej skłonni zauważyć błędy i mogą zostać zniechęceni do dalszego użytkowania. To badanie podkreśla znaczenie dostosowywania modeli do ludzkiego rozumienia generalizacji. W miarę rozwoju coraz bardziej złożonych modeli językowych, konieczne jest uwzględnienie ludzkiej perspektywy w ich rozwój i ocenę.

Praktyczne implikacje
Te badania są częściowo finansowane przez Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Ważne jest, aby zauważyć, że badacze chcą również używać swojego zestawu danych jako punktu odniesienia do porównania wydajności LLM-ów w stosunku do funkcji generalizacji ludzkiej, co mogłoby pomóc w poprawie wydajności modeli w rzeczywistych sytuacjach.

Ponadto badacze planują dalsze badania, aby zrozumieć, jak ludzkie przekonania na temat LLM-ów rozwijają się z czasem dzięki interakcji z modelami. Chcą zbadać, jak generalizacja ludzka może być zintegrowana z rozwojem LLM-ów, aby poprawić ich wydajność i zwiększyć zaufanie użytkowników. Praktyczne implikacje tych badań są dalekosiężne, szczególnie w kontekście zastosowania LLM-ów w różnych branżach, gdzie zrozumienie i zaufanie użytkowników są kluczowe dla pomyślnego wdrożenia technologii.

Jednym z kluczowych punktów badań jest potrzeba lepszego zrozumienia i integracji generalizacji ludzkiej w rozwój i ocenę LLM-ów. Proponowane ramy uwzględniają czynniki ludzkie podczas stosowania ogólnych LLM-ów w celu poprawy ich wydajności w rzeczywistych warunkach i zwiększenia zaufania użytkowników. Ważne jest podkreślenie, że praktyczne implikacje tych badań są znaczące. Jeśli ludzie nie mają właściwego zrozumienia, kiedy LLM-y będą dokładne, a kiedy popełnią błąd, są bardziej skłonni zauważyć błędy i mogą zostać zniechęceni do dalszego użytkowania.

To badanie podkreśla znaczenie dostosowywania modeli do ludzkiego rozumienia generalizacji. W miarę rozwoju coraz bardziej złożonych modeli językowych, konieczne jest uwzględnienie ludzkiej perspektywy w ich rozwój i ocenę. Te badania są częściowo finansowane przez Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Ważne jest, aby zauważyć, że badacze chcą również używać swojego zestawu danych jako punktu odniesienia do porównania wydajności LLM-ów w stosunku do funkcji generalizacji ludzkiej, co mogłoby pomóc w poprawie wydajności modeli w rzeczywistych sytuacjach.

Praktyczne implikacje tych badań są dalekosiężne, szczególnie w kontekście zastosowania LLM-ów w różnych branżach, gdzie zrozumienie i zaufanie użytkowników są kluczowe dla pomyślnego wdrożenia technologii. Jednym z kluczowych punktów badań jest potrzeba lepszego zrozumienia i integracji generalizacji ludzkiej w rozwój i ocenę LLM-ów. Proponowane ramy uwzględniają czynniki ludzkie podczas stosowania ogólnych LLM-ów w celu poprawy ich wydajności w rzeczywistych warunkach i zwiększenia zaufania użytkowników.

Źródło: Massachusetts Institute of Technology

Znajdź nocleg w pobliżu

Czas utworzenia: 29 lipca, 2024

Redakcja nauki i technologii

Nasza Redakcja Nauki i Technologii powstała z wieloletniej pasji do badania, interpretowania i przybliżania złożonych tematów zwykłym czytelnikom. Piszą u nas pracownicy i wolontariusze, którzy od dziesięcioleci śledzą rozwój nauki i innowacji technologicznych – od odkryć laboratoryjnych po rozwiązania zmieniające codzienne życie. Choć piszemy w liczbie mnogiej, za każdym tekstem stoi prawdziwa osoba z dużym doświadczeniem redakcyjnym i dziennikarskim oraz głębokim szacunkiem dla faktów i informacji możliwych do zweryfikowania.

Nasza redakcja opiera swoją pracę na przekonaniu, że nauka jest najsilniejsza wtedy, gdy jest dostępna dla wszystkich. Dlatego dążymy do jasności, precyzji i zrozumiałości, unikając uproszczeń, które mogłyby obniżyć jakość treści. Często spędzamy godziny, analizując badania, dokumenty techniczne i źródła specjalistyczne, aby każdy temat przedstawić w sposób ciekawy, a nie obciążający. W każdym tekście staramy się łączyć wiedzę naukową z codziennym życiem, pokazując, jak idee z ośrodków badawczych, uniwersytetów i laboratoriów technologicznych kształtują świat wokół nas.

Wieloletnie doświadczenie dziennikarskie pozwala nam rozpoznać to, co dla czytelnika naprawdę ważne – niezależnie od tego, czy chodzi o postępy w sztucznej inteligencji, odkrycia medyczne, rozwiązania energetyczne, misje kosmiczne czy urządzenia, które trafiają do naszego życia codziennego, zanim zdążymy pomyśleć o ich możliwościach. Nasze spojrzenie na technologię nie jest wyłącznie techniczne; interesują nas także ludzkie historie stojące za wielkimi osiągnięciami – badacze, którzy latami dopracowują projekty, inżynierowie zamieniający idee w działające systemy oraz wizjonerzy przesuwający granice możliwości.

W naszej pracy kieruje nami również poczucie odpowiedzialności. Chcemy, by czytelnik mógł zaufać informacjom, które podajemy, dlatego sprawdzamy źródła, porównujemy dane i nie spieszymy się z publikacją, jeśli coś nie jest całkowicie jasne. Zaufanie buduje się wolniej niż pisze wiadomość, ale wierzymy, że tylko taki dziennikarski wysiłek ma trwałą wartość.

Dla nas technologia to coś więcej niż urządzenia, a nauka to coś więcej niż teoria. To dziedziny, które napędzają postęp, kształtują społeczeństwo i otwierają nowe możliwości dla wszystkich, którzy chcą zrozumieć, jak działa świat dziś i dokąd zmierza jutro. Dlatego podchodzimy do każdego tematu z powagą, ale i z ciekawością – bo to właśnie ciekawość otwiera drzwi najlepszym tekstom.

Naszą misją jest przybliżanie czytelnikom świata, który zmienia się szybciej niż kiedykolwiek wcześniej, w przekonaniu, że rzetelne dziennikarstwo może być mostem między ekspertami, innowatorami i wszystkimi, którzy chcą zrozumieć, co dzieje się za nagłówkami. W tym widzimy nasze właściwe zadanie: przekształcać to, co złożone, w zrozumiałe, to, co odległe, w bliskie, a to, co nieznane, w inspirujące.

UWAGA DLA NASZYCH CZYTELNIKÓW
Karlobag.eu dostarcza wiadomości, analizy i informacje o globalnych wydarzeniach oraz tematach interesujących czytelników na całym świecie. Wszystkie opublikowane informacje służą wyłącznie celom informacyjnym.
Podkreślamy, że nie jesteśmy ekspertami w dziedzinie nauki, medycyny, finansów ani prawa. Dlatego przed podjęciem jakichkolwiek decyzji na podstawie informacji z naszego portalu zalecamy konsultację z wykwalifikowanymi ekspertami.
Karlobag.eu może zawierać linki do zewnętrznych stron trzecich, w tym linki afiliacyjne i treści sponsorowane. Jeśli kupisz produkt lub usługę za pośrednictwem tych linków, możemy otrzymać prowizję. Nie mamy kontroli nad treścią ani politykami tych stron i nie ponosimy odpowiedzialności za ich dokładność, dostępność ani za jakiekolwiek transakcje przeprowadzone za ich pośrednictwem.
Jeśli publikujemy informacje o wydarzeniach lub sprzedaży biletów, prosimy pamiętać, że nie sprzedajemy biletów ani bezpośrednio, ani poprzez pośredników. Nasz portal wyłącznie informuje czytelników o wydarzeniach i możliwościach zakupu biletów poprzez zewnętrzne platformy sprzedażowe. Łączymy czytelników z partnerami oferującymi usługi sprzedaży biletów, jednak nie gwarantujemy ich dostępności, cen ani warunków zakupu. Wszystkie informacje o biletach pochodzą od stron trzecich i mogą ulec zmianie bez wcześniejszego powiadomienia.
Wszystkie informacje na naszym portalu mogą ulec zmianie bez wcześniejszego powiadomienia. Korzystając z tego portalu, zgadzasz się czytać treści na własne ryzyko.