Forscher am MIT standen vor der Herausforderung, große Sprachmodelle (LLMs) zu bewerten, da sie breit eingesetzt werden. Traditionelle Ansätze tun sich schwer damit, alle Arten von Fragen zu erfassen, die Modelle beantworten können. Um dieses Problem zu lösen, konzentrierten sie sich auf menschliche Wahrnehmungen und Überzeugungen über die Fähigkeiten dieser Modelle. Ein Schlüsselkonzept in ihrer Forschung ist die menschliche Generalisierungsfunktion, die modelliert, wie Menschen ihre Überzeugungen über LLMs nach der Interaktion mit ihnen aktualisieren.
Zum Beispiel muss ein Student entscheiden, ob ein Modell beim Verfassen einer bestimmten E-Mail hilft, während ein Arzt einschätzen muss, wann ein Modell bei der Diagnose von Patienten nützlich ist. Die Forscher entwickelten einen Rahmen zur Bewertung von LLMs basierend auf ihrer Übereinstimmung mit den menschlichen Überzeugungen über die Leistung bei bestimmten Aufgaben.
Forschung zur menschlichen Generalisierungsfunktion
Während wir mit anderen kommunizieren, bilden wir Überzeugungen über ihr Wissen. Wenn ein Freund dazu neigt, Grammatik zu korrigieren, könnten wir annehmen, dass er gut im Satzbau ist, obwohl wir ihn nie danach gefragt haben. In ähnlicher Weise wollten die Forscher zeigen, dass derselbe Prozess stattfindet, wenn wir Überzeugungen über Sprachmodelle bilden.
Sie definierten die menschliche Generalisierungsfunktion als das Stellen von Fragen, das Beobachten von Antworten und das Schließen auf die Fähigkeit der Person oder des Modells für ähnliche Fragen. Wenn jemand sieht, dass ein LLM Fragen zur Matrizeninversion korrekt beantwortet, könnte er annehmen, dass es auch gut in einfacher Arithmetik ist. Ein Modell, das dieser Funktion nicht entspricht, kann versagen, wenn es verwendet wird.
Die Forscher führten eine Umfrage durch, um zu messen, wie Menschen generalisieren, wenn sie mit LLMs und anderen Menschen interagieren. Sie zeigten den Teilnehmern Fragen, die von Personen oder LLMs richtig oder falsch beantwortet wurden, und fragten sie, ob sie glauben, dass die Person oder das LLM eine verwandte Frage richtig beantworten würde. Die Ergebnisse zeigten, dass die Teilnehmer ziemlich gut darin waren, die Leistung von Menschen vorherzusagen, aber schlechter darin waren, die Leistung von LLMs vorherzusagen.
Messung der Diskrepanz
Die Forschung ergab, dass die Teilnehmer eher bereit waren, ihre Überzeugungen über LLMs zu aktualisieren, wenn Modelle falsche Antworten gaben, als wenn sie korrekt antworteten. Sie glaubten auch, dass die Leistung von LLMs bei einfachen Fragen keinen Einfluss auf ihre Leistung bei komplexeren Fragen hat. In Situationen, in denen die Teilnehmer falschen Antworten mehr Gewicht beimaßen, übertrafen einfachere Modelle größere Modelle wie GPT-4.
Weitere Forschung und Entwicklung
Eine mögliche Erklärung dafür, warum Menschen schlechter darin sind, für LLMs zu generalisieren, könnte deren Neuheit sein – Menschen haben viel weniger Erfahrung im Umgang mit LLMs als mit anderen Menschen. In Zukunft möchten die Forscher zusätzliche Studien darüber durchführen, wie sich menschliche Überzeugungen über LLMs im Laufe der Zeit mit zunehmender Interaktion mit den Modellen entwickeln. Sie möchten auch untersuchen, wie die menschliche Generalisierung in die Entwicklung von LLMs einbezogen werden könnte.
Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen.
Die praktischen Implikationen dieser Forschung sind bedeutend. Wenn Menschen kein richtiges Verständnis dafür haben, wann LLMs genau sind und wann sie Fehler machen, werden sie eher Fehler bemerken und möglicherweise entmutigt werden, sie weiter zu verwenden. Diese Studie betont die Bedeutung der Angleichung von Modellen an das menschliche Verständnis von Generalisierung. Da immer komplexere Sprachmodelle entwickelt werden, ist es notwendig, die menschliche Perspektive in ihre Entwicklung und Bewertung zu integrieren.
Praktische Implikationen
Diese Forschung wird teilweise von der Harvard Data Science Initiative und dem Center for Applied AI an der University of Chicago Booth School of Business finanziert. Es ist wichtig zu beachten, dass die Forscher auch beabsichtigen, ihren Datensatz als Referenzpunkt für den Vergleich der Leistung von LLMs mit der menschlichen Generalisierungsfunktion zu verwenden, was dazu beitragen könnte, die Leistung der Modelle in realen Situationen zu verbessern.
Darüber hinaus planen die Forscher weitere Studien, um zu verstehen, wie sich menschliche Überzeugungen über LLMs im Laufe der Zeit durch die Interaktion mit Modellen entwickeln. Sie möchten untersuchen, wie die menschliche Generalisierung in die Entwicklung von LLMs integriert werden kann, um deren Leistung zu verbessern und das Vertrauen der Benutzer zu erhöhen. Die praktischen Implikationen dieser Forschung sind weitreichend, insbesondere im Kontext der Anwendung von LLMs in verschiedenen Branchen, wo das Verständnis und das Vertrauen der Benutzer entscheidend für die erfolgreiche Einführung der Technologie sind.
Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen. Es ist wichtig zu betonen, dass die praktischen Implikationen dieser Forschung bedeutend sind. Wenn Menschen kein richtiges Verständnis dafür haben, wann LLMs genau sind und wann sie Fehler machen, werden sie eher Fehler bemerken und möglicherweise entmutigt werden, sie weiter zu verwenden.
Diese Studie betont die Bedeutung der Angleichung von Modellen an das menschliche Verständnis von Generalisierung. Da immer komplexere Sprachmodelle entwickelt werden, ist es notwendig, die menschliche Perspektive in ihre Entwicklung und Bewertung zu integrieren. Diese Forschung wird teilweise von der Harvard Data Science Initiative und dem Center for Applied AI an der University of Chicago Booth School of Business finanziert. Es ist wichtig zu beachten, dass die Forscher auch beabsichtigen, ihren Datensatz als Referenzpunkt für den Vergleich der Leistung von LLMs mit der menschlichen Generalisierungsfunktion zu verwenden, was dazu beitragen könnte, die Leistung der Modelle in realen Situationen zu verbessern.
Die praktischen Implikationen dieser Forschung sind weitreichend, insbesondere im Kontext der Anwendung von LLMs in verschiedenen Branchen, wo das Verständnis und das Vertrauen der Benutzer entscheidend für die erfolgreiche Einführung der Technologie sind. Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen.
Quelle: Massachusetts Institute of Technology
Creation time: 29 July, 2024
Note for our readers:
The Karlobag.eu portal provides information on daily events and topics important to our community. We emphasize that we are not experts in scientific or medical fields. All published information is for informational purposes only.
Please do not consider the information on our portal to be completely accurate and always consult your own doctor or professional before making decisions based on this information.
Our team strives to provide you with up-to-date and relevant information, and we publish all content with great dedication.
We invite you to share your stories from Karlobag with us!
Your experience and stories about this beautiful place are precious and we would like to hear them.
Feel free to send them to us at karlobag@ karlobag.eu.
Your stories will contribute to the rich cultural heritage of our Karlobag.
Thank you for sharing your memories with us!