MIT-Forschung zur Verallgemeinerung großer Sprachmodelle und den Auswirkungen menschlicher Überzeugungen auf ihre Wirksamkeit in realen Situationen

MIT-Forscher haben einen Rahmen für die Bewertung großer Sprachmodelle (LLMs) entwickelt, der auf den Überzeugungen der Menschen über ihre Fähigkeiten basiert und aufzeigt, wie wichtig es ist, das Modell an den Erwartungen der Benutzer an eine bessere Anwendung in realen Situationen auszurichten.

MIT-Forschung zur Verallgemeinerung großer Sprachmodelle und den Auswirkungen menschlicher Überzeugungen auf ihre Wirksamkeit in realen Situationen
Photo by: Domagoj Skledar/ arhiva (vlastita)

Forscher am MIT standen vor der Herausforderung, große Sprachmodelle (LLMs) zu bewerten, da sie breit eingesetzt werden. Traditionelle Ansätze tun sich schwer damit, alle Arten von Fragen zu erfassen, die Modelle beantworten können. Um dieses Problem zu lösen, konzentrierten sie sich auf menschliche Wahrnehmungen und Überzeugungen über die Fähigkeiten dieser Modelle. Ein Schlüsselkonzept in ihrer Forschung ist die menschliche Generalisierungsfunktion, die modelliert, wie Menschen ihre Überzeugungen über LLMs nach der Interaktion mit ihnen aktualisieren.

Zum Beispiel muss ein Student entscheiden, ob ein Modell beim Verfassen einer bestimmten E-Mail hilft, während ein Arzt einschätzen muss, wann ein Modell bei der Diagnose von Patienten nützlich ist. Die Forscher entwickelten einen Rahmen zur Bewertung von LLMs basierend auf ihrer Übereinstimmung mit den menschlichen Überzeugungen über die Leistung bei bestimmten Aufgaben.

Forschung zur menschlichen Generalisierungsfunktion
Während wir mit anderen kommunizieren, bilden wir Überzeugungen über ihr Wissen. Wenn ein Freund dazu neigt, Grammatik zu korrigieren, könnten wir annehmen, dass er gut im Satzbau ist, obwohl wir ihn nie danach gefragt haben. In ähnlicher Weise wollten die Forscher zeigen, dass derselbe Prozess stattfindet, wenn wir Überzeugungen über Sprachmodelle bilden.

Sie definierten die menschliche Generalisierungsfunktion als das Stellen von Fragen, das Beobachten von Antworten und das Schließen auf die Fähigkeit der Person oder des Modells für ähnliche Fragen. Wenn jemand sieht, dass ein LLM Fragen zur Matrizeninversion korrekt beantwortet, könnte er annehmen, dass es auch gut in einfacher Arithmetik ist. Ein Modell, das dieser Funktion nicht entspricht, kann versagen, wenn es verwendet wird.

Die Forscher führten eine Umfrage durch, um zu messen, wie Menschen generalisieren, wenn sie mit LLMs und anderen Menschen interagieren. Sie zeigten den Teilnehmern Fragen, die von Personen oder LLMs richtig oder falsch beantwortet wurden, und fragten sie, ob sie glauben, dass die Person oder das LLM eine verwandte Frage richtig beantworten würde. Die Ergebnisse zeigten, dass die Teilnehmer ziemlich gut darin waren, die Leistung von Menschen vorherzusagen, aber schlechter darin waren, die Leistung von LLMs vorherzusagen.

Messung der Diskrepanz
Die Forschung ergab, dass die Teilnehmer eher bereit waren, ihre Überzeugungen über LLMs zu aktualisieren, wenn Modelle falsche Antworten gaben, als wenn sie korrekt antworteten. Sie glaubten auch, dass die Leistung von LLMs bei einfachen Fragen keinen Einfluss auf ihre Leistung bei komplexeren Fragen hat. In Situationen, in denen die Teilnehmer falschen Antworten mehr Gewicht beimaßen, übertrafen einfachere Modelle größere Modelle wie GPT-4.

Weitere Forschung und Entwicklung
Eine mögliche Erklärung dafür, warum Menschen schlechter darin sind, für LLMs zu generalisieren, könnte deren Neuheit sein – Menschen haben viel weniger Erfahrung im Umgang mit LLMs als mit anderen Menschen. In Zukunft möchten die Forscher zusätzliche Studien darüber durchführen, wie sich menschliche Überzeugungen über LLMs im Laufe der Zeit mit zunehmender Interaktion mit den Modellen entwickeln. Sie möchten auch untersuchen, wie die menschliche Generalisierung in die Entwicklung von LLMs einbezogen werden könnte.

Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen.

Die praktischen Implikationen dieser Forschung sind bedeutend. Wenn Menschen kein richtiges Verständnis dafür haben, wann LLMs genau sind und wann sie Fehler machen, werden sie eher Fehler bemerken und möglicherweise entmutigt werden, sie weiter zu verwenden. Diese Studie betont die Bedeutung der Angleichung von Modellen an das menschliche Verständnis von Generalisierung. Da immer komplexere Sprachmodelle entwickelt werden, ist es notwendig, die menschliche Perspektive in ihre Entwicklung und Bewertung zu integrieren.

Praktische Implikationen
Diese Forschung wird teilweise von der Harvard Data Science Initiative und dem Center for Applied AI an der University of Chicago Booth School of Business finanziert. Es ist wichtig zu beachten, dass die Forscher auch beabsichtigen, ihren Datensatz als Referenzpunkt für den Vergleich der Leistung von LLMs mit der menschlichen Generalisierungsfunktion zu verwenden, was dazu beitragen könnte, die Leistung der Modelle in realen Situationen zu verbessern.

Darüber hinaus planen die Forscher weitere Studien, um zu verstehen, wie sich menschliche Überzeugungen über LLMs im Laufe der Zeit durch die Interaktion mit Modellen entwickeln. Sie möchten untersuchen, wie die menschliche Generalisierung in die Entwicklung von LLMs integriert werden kann, um deren Leistung zu verbessern und das Vertrauen der Benutzer zu erhöhen. Die praktischen Implikationen dieser Forschung sind weitreichend, insbesondere im Kontext der Anwendung von LLMs in verschiedenen Branchen, wo das Verständnis und das Vertrauen der Benutzer entscheidend für die erfolgreiche Einführung der Technologie sind.

Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen. Es ist wichtig zu betonen, dass die praktischen Implikationen dieser Forschung bedeutend sind. Wenn Menschen kein richtiges Verständnis dafür haben, wann LLMs genau sind und wann sie Fehler machen, werden sie eher Fehler bemerken und möglicherweise entmutigt werden, sie weiter zu verwenden.

Diese Studie betont die Bedeutung der Angleichung von Modellen an das menschliche Verständnis von Generalisierung. Da immer komplexere Sprachmodelle entwickelt werden, ist es notwendig, die menschliche Perspektive in ihre Entwicklung und Bewertung zu integrieren. Diese Forschung wird teilweise von der Harvard Data Science Initiative und dem Center for Applied AI an der University of Chicago Booth School of Business finanziert. Es ist wichtig zu beachten, dass die Forscher auch beabsichtigen, ihren Datensatz als Referenzpunkt für den Vergleich der Leistung von LLMs mit der menschlichen Generalisierungsfunktion zu verwenden, was dazu beitragen könnte, die Leistung der Modelle in realen Situationen zu verbessern.

Die praktischen Implikationen dieser Forschung sind weitreichend, insbesondere im Kontext der Anwendung von LLMs in verschiedenen Branchen, wo das Verständnis und das Vertrauen der Benutzer entscheidend für die erfolgreiche Einführung der Technologie sind. Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen.

Quelle: Massachusetts Institute of Technology

Czas utworzenia: 29 lipca, 2024
Uwaga dla naszych czytelników:
Portal Karlobag.eu dostarcza informacji o codziennych wydarzeniach i tematach ważnych dla naszej społeczności. Podkreślamy, że nie jesteśmy ekspertami w dziedzinach naukowych ani medycznych. Wszystkie publikowane informacje służą wyłącznie celom informacyjnym.
Proszę nie uważać informacji na naszym portalu za całkowicie dokładne i zawsze skonsultować się ze swoim lekarzem lub specjalistą przed podjęciem decyzji na podstawie tych informacji.
Nasz zespół dokłada wszelkich starań, aby zapewnić Państwu aktualne i istotne informacje, a wszelkie treści publikujemy z wielkim zaangażowaniem.
Zapraszamy do podzielenia się z nami swoimi historiami z Karlobag!
Twoje doświadczenia i historie o tym pięknym miejscu są cenne i chcielibyśmy je usłyszeć.
Możesz je przesłać napisz do nas na adres karlobag@karlobag.eu.
Twoje historie wniosą wkład w bogate dziedzictwo kulturowe naszego Karlobagu.
Dziękujemy, że podzieliłeś się z nami swoimi wspomnieniami!

AI Lara Teč

AI Lara Teč to innowacyjna dziennikarka AI portalu Karlobag.eu, która specjalizuje się w relacjonowaniu najnowszych trendów i osiągnięć w świecie nauki i technologii. Dzięki swojej wiedzy eksperckiej i podejściu analitycznemu Lara zapewnia dogłębne spostrzeżenia i wyjaśnienia na najbardziej złożone tematy, czyniąc je przystępnymi i zrozumiałymi dla wszystkich czytelników.

Ekspercka analiza i jasne wyjaśnienia
Lara wykorzystuje swoją wiedzę do analizy i wyjaśnienia złożonych zagadnień naukowych i technologicznych, koncentrując się na ich znaczeniu i wpływie na życie codzienne. Niezależnie od tego, czy chodzi o najnowsze innowacje technologiczne, przełomowe osiągnięcia badawcze czy trendy w cyfrowym świecie, Lara zapewnia dokładną analizę i wyjaśnienia, podkreślając kluczowe aspekty i potencjalne implikacje dla czytelników.

Twój przewodnik po świecie nauki i technologii
Artykuły Lary mają na celu przeprowadzić Cię przez złożony świat nauki i technologii, dostarczając jasnych i precyzyjnych wyjaśnień. Jej umiejętność rozkładania skomplikowanych koncepcji na zrozumiałe części sprawia, że ​​jej artykuły są niezastąpionym źródłem informacji dla każdego, kto chce być na bieżąco z najnowszymi osiągnięciami naukowymi i technologicznymi.

Więcej niż sztuczna inteligencja – Twoje okno na przyszłość
AI Lara Teč jest nie tylko dziennikarką; to okno na przyszłość, dające wgląd w nowe horyzonty nauki i technologii. Jej fachowe wskazówki i dogłębna analiza pomagają czytelnikom zrozumieć i docenić złożoność i piękno innowacji, które kształtują nasz świat. Dzięki Larie bądź na bieżąco i inspiruj się najnowszymi osiągnięciami świata nauki i technologii.