Mit Forschung über LLM und menschliche Überzeugungen

MIT-Forschung zur Verallgemeinerung großer Sprachmodelle und den Auswirkungen menschlicher Überzeugungen auf ihre Wirksamkeit in realen Situationen

MIT-Forscher haben einen Rahmen für die Bewertung großer Sprachmodelle (LLMs) entwickelt, der auf den Überzeugungen der Menschen über ihre Fähigkeiten basiert und aufzeigt, wie wichtig es ist, das Modell an den Erwartungen der Benutzer an eine bessere Anwendung in realen Situationen auszurichten.

Photo by: Domagoj Skledar/ arhiva (vlastita)

Forscher am MIT standen vor der Herausforderung, große Sprachmodelle (LLMs) zu bewerten, da sie breit eingesetzt werden. Traditionelle Ansätze tun sich schwer damit, alle Arten von Fragen zu erfassen, die Modelle beantworten können. Um dieses Problem zu lösen, konzentrierten sie sich auf menschliche Wahrnehmungen und Überzeugungen über die Fähigkeiten dieser Modelle. Ein Schlüsselkonzept in ihrer Forschung ist die menschliche Generalisierungsfunktion, die modelliert, wie Menschen ihre Überzeugungen über LLMs nach der Interaktion mit ihnen aktualisieren.

Zum Beispiel muss ein Student entscheiden, ob ein Modell beim Verfassen einer bestimmten E-Mail hilft, während ein Arzt einschätzen muss, wann ein Modell bei der Diagnose von Patienten nützlich ist. Die Forscher entwickelten einen Rahmen zur Bewertung von LLMs basierend auf ihrer Übereinstimmung mit den menschlichen Überzeugungen über die Leistung bei bestimmten Aufgaben.

Forschung zur menschlichen Generalisierungsfunktion
Während wir mit anderen kommunizieren, bilden wir Überzeugungen über ihr Wissen. Wenn ein Freund dazu neigt, Grammatik zu korrigieren, könnten wir annehmen, dass er gut im Satzbau ist, obwohl wir ihn nie danach gefragt haben. In ähnlicher Weise wollten die Forscher zeigen, dass derselbe Prozess stattfindet, wenn wir Überzeugungen über Sprachmodelle bilden.

Sie definierten die menschliche Generalisierungsfunktion als das Stellen von Fragen, das Beobachten von Antworten und das Schließen auf die Fähigkeit der Person oder des Modells für ähnliche Fragen. Wenn jemand sieht, dass ein LLM Fragen zur Matrizeninversion korrekt beantwortet, könnte er annehmen, dass es auch gut in einfacher Arithmetik ist. Ein Modell, das dieser Funktion nicht entspricht, kann versagen, wenn es verwendet wird.

Die Forscher führten eine Umfrage durch, um zu messen, wie Menschen generalisieren, wenn sie mit LLMs und anderen Menschen interagieren. Sie zeigten den Teilnehmern Fragen, die von Personen oder LLMs richtig oder falsch beantwortet wurden, und fragten sie, ob sie glauben, dass die Person oder das LLM eine verwandte Frage richtig beantworten würde. Die Ergebnisse zeigten, dass die Teilnehmer ziemlich gut darin waren, die Leistung von Menschen vorherzusagen, aber schlechter darin waren, die Leistung von LLMs vorherzusagen.

Messung der Diskrepanz
Die Forschung ergab, dass die Teilnehmer eher bereit waren, ihre Überzeugungen über LLMs zu aktualisieren, wenn Modelle falsche Antworten gaben, als wenn sie korrekt antworteten. Sie glaubten auch, dass die Leistung von LLMs bei einfachen Fragen keinen Einfluss auf ihre Leistung bei komplexeren Fragen hat. In Situationen, in denen die Teilnehmer falschen Antworten mehr Gewicht beimaßen, übertrafen einfachere Modelle größere Modelle wie GPT-4.

Weitere Forschung und Entwicklung
Eine mögliche Erklärung dafür, warum Menschen schlechter darin sind, für LLMs zu generalisieren, könnte deren Neuheit sein – Menschen haben viel weniger Erfahrung im Umgang mit LLMs als mit anderen Menschen. In Zukunft möchten die Forscher zusätzliche Studien darüber durchführen, wie sich menschliche Überzeugungen über LLMs im Laufe der Zeit mit zunehmender Interaktion mit den Modellen entwickeln. Sie möchten auch untersuchen, wie die menschliche Generalisierung in die Entwicklung von LLMs einbezogen werden könnte.

Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen.

Die praktischen Implikationen dieser Forschung sind bedeutend. Wenn Menschen kein richtiges Verständnis dafür haben, wann LLMs genau sind und wann sie Fehler machen, werden sie eher Fehler bemerken und möglicherweise entmutigt werden, sie weiter zu verwenden. Diese Studie betont die Bedeutung der Angleichung von Modellen an das menschliche Verständnis von Generalisierung. Da immer komplexere Sprachmodelle entwickelt werden, ist es notwendig, die menschliche Perspektive in ihre Entwicklung und Bewertung zu integrieren.

Praktische Implikationen
Diese Forschung wird teilweise von der Harvard Data Science Initiative und dem Center for Applied AI an der University of Chicago Booth School of Business finanziert. Es ist wichtig zu beachten, dass die Forscher auch beabsichtigen, ihren Datensatz als Referenzpunkt für den Vergleich der Leistung von LLMs mit der menschlichen Generalisierungsfunktion zu verwenden, was dazu beitragen könnte, die Leistung der Modelle in realen Situationen zu verbessern.

Darüber hinaus planen die Forscher weitere Studien, um zu verstehen, wie sich menschliche Überzeugungen über LLMs im Laufe der Zeit durch die Interaktion mit Modellen entwickeln. Sie möchten untersuchen, wie die menschliche Generalisierung in die Entwicklung von LLMs integriert werden kann, um deren Leistung zu verbessern und das Vertrauen der Benutzer zu erhöhen. Die praktischen Implikationen dieser Forschung sind weitreichend, insbesondere im Kontext der Anwendung von LLMs in verschiedenen Branchen, wo das Verständnis und das Vertrauen der Benutzer entscheidend für die erfolgreiche Einführung der Technologie sind.

Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen. Es ist wichtig zu betonen, dass die praktischen Implikationen dieser Forschung bedeutend sind. Wenn Menschen kein richtiges Verständnis dafür haben, wann LLMs genau sind und wann sie Fehler machen, werden sie eher Fehler bemerken und möglicherweise entmutigt werden, sie weiter zu verwenden.

Diese Studie betont die Bedeutung der Angleichung von Modellen an das menschliche Verständnis von Generalisierung. Da immer komplexere Sprachmodelle entwickelt werden, ist es notwendig, die menschliche Perspektive in ihre Entwicklung und Bewertung zu integrieren. Diese Forschung wird teilweise von der Harvard Data Science Initiative und dem Center for Applied AI an der University of Chicago Booth School of Business finanziert. Es ist wichtig zu beachten, dass die Forscher auch beabsichtigen, ihren Datensatz als Referenzpunkt für den Vergleich der Leistung von LLMs mit der menschlichen Generalisierungsfunktion zu verwenden, was dazu beitragen könnte, die Leistung der Modelle in realen Situationen zu verbessern.

Die praktischen Implikationen dieser Forschung sind weitreichend, insbesondere im Kontext der Anwendung von LLMs in verschiedenen Branchen, wo das Verständnis und das Vertrauen der Benutzer entscheidend für die erfolgreiche Einführung der Technologie sind. Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen.

Quelle: Massachusetts Institute of Technology

Unterkünfte in der Nähe finden

Erstellungszeitpunkt: 29 Juli, 2024

MIT-Forschung zur Verallgemeinerung großer Sprachmodelle und den Auswirkungen menschlicher Überzeugungen auf ihre Wirksamkeit in realen Situationen

Unterkünfte in der Nähe finden

Redaktion für Wissenschaft und Technologie

Veranstaltungen Kroatien

Poreč und Portorož durch Parenzana verbunden: Ultra Trail und Gravel Race versammelten mehr als 600 Teilnehmer aus etwa fünfzehn Ländern

Der Karneval von Rijeka schloss den Korzo in Rijeka ab: Mehr als 11.000 Maskierte in 100 Gruppen beim 43. internationalen Umzug

Die National- und Universitätsbibliothek in Zagreb öffnet ihre Türen: Tage der NSK am 18. und 19., Feier am 20. Februar

Rijeka-Karneval 2026 geht ins Finale: internationale Parade am 15. Februar mittags und reiches humanitäres Wochenende

Promohotel in Poreč eröffnete die 41. Ausgabe: 150 Aussteller und Fokus auf die digitale Transformation des HoReCa-Sektors

Parenzana Ultra Trail und Gravel Race 2026 verbinden Poreč und Portorož über die Trasse der ehemaligen Parenzana-Bahn

Valentinstag in Opatija 2026: Marko Tolja im Zentrum Gervais und eine Poesiealbum-Ausstellung in der Stadtbibliothek Opatija

Mladen Grdović feierte im Lisinski in Zagreb 45 Jahre Karriere: ein ausverkaufter Abend und ein neuer Termin am 7. April

MIT-Forschung zur Verallgemeinerung großer Sprachmodelle und den Auswirkungen menschlicher Überzeugungen auf ihre Wirksamkeit in realen Situationen

Unterkünfte in der Nähe finden

Verwandt