MIT verbessert die Beurteilung der Unsicherheit beim maschinellen Lernen

Ein neuer Ansatz zur Verbesserung der Unsicherheitsbewertung in Modellen des maschinellen Lernens: eine skalierbare Methode für Anwendungen im Gesundheitswesen und in anderen kritischen Bereichen

Photo by: Domagoj Skledar/ arhiva (vlastita)

Die heutige Forschung im Bereich des maschinellen Lernens konzentriert sich oft auf die Schätzung von Unsicherheiten, damit die Benutzer besser verstehen können, wie zuverlässig die Entscheidungen des Modells sind. Diese Bewertung ist besonders wichtig in Situationen, in denen viel auf dem Spiel steht, wie zum Beispiel bei der Erkennung von Krankheiten in medizinischen Bildern oder bei der Filterung von Bewerbungen.

Unsicherheitsschätzungen sind jedoch nur dann nützlich, wenn sie genau sind. Wenn ein Modell behauptet, zu 49 Prozent sicher zu sein, dass ein medizinisches Bild einen Pleuraerguss zeigt, dann sollte dieses Modell in 49 Prozent der Fälle richtig liegen.

Forscher am MIT haben einen neuen Ansatz zur Verbesserung der Unsicherheitsschätzungen in maschinellen Lernmodellen entwickelt. Ihre Methode generiert genauere Unsicherheitsschätzungen im Vergleich zu anderen Techniken und tut dies auf effizientere Weise.

Darüber hinaus ist diese Technik skalierbar und kann auf große Deep-Learning-Modelle angewendet werden, die zunehmend im Gesundheitswesen und in anderen Situationen verwendet werden, in denen Sicherheit von entscheidender Bedeutung ist.

Diese Technik kann Endbenutzern, von denen viele keine Expertise im maschinellen Lernen haben, bessere Informationen zur Bewertung der Zuverlässigkeit des Modells und zur Entscheidung über dessen Anwendung bei bestimmten Aufgaben liefern.

Quantifizierung der Unsicherheit
Methoden zur Quantifizierung von Unsicherheit erfordern oft komplexe statistische Berechnungen, die schwer auf Modelle des maschinellen Lernens mit Millionen von Parametern skalierbar sind. Außerdem erfordern diese Methoden oft Annahmen über das Modell und die für dessen Training verwendeten Daten.

Die MIT-Forscher haben dieses Problem anders angegangen. Sie nutzten das Prinzip der minimalen Beschreibungslänge (MDL), das keine Annahmen erfordert, die die Genauigkeit anderer Methoden einschränken könnten. MDL wird verwendet, um die Unsicherheit für Testpunkte, die das Modell kennzeichnen muss, besser zu quantifizieren und zu kalibrieren.

Die von den Forschern entwickelte Technik, bekannt als IF-COMP, macht MDL schnell genug für den Einsatz mit großen Deep-Learning-Modellen, die in vielen realen Umgebungen eingesetzt werden.

MDL beinhaltet die Berücksichtigung aller möglichen Labels, die das Modell für einen bestimmten Testpunkt vergeben kann. Wenn es viele alternative Labels für diesen Punkt gibt, die gut passen, sollte das Vertrauen des Modells in das ausgewählte Label proportional verringert werden.

"Eine Möglichkeit, zu verstehen, wie sicher ein Modell ist, besteht darin, ihm einige kontrafaktische Informationen zu geben und zu sehen, wie bereit es ist, seinen Glauben zu ändern", sagt Nathan Ng, Hauptautor der Studie und Doktorand an der Universität Toronto, der auch Gaststudent am MIT ist.

Betrachten wir zum Beispiel ein Modell, das behauptet, ein medizinisches Bild zeige einen Pleuraerguss. Wenn Forscher dem Modell sagen, dass das Bild ein Ödem zeigt und das Modell bereit ist, seinen Glauben zu ändern, sollte das Modell weniger sicher in seiner ursprünglichen Entscheidung sein.

Mit MDL sollte ein Modell, wenn es sicher ist, wenn es einen Datenpunkt kennzeichnet, einen sehr kurzen Code verwenden, um diesen Punkt zu beschreiben. Wenn es sich nicht sicher ist, weil der Punkt viele andere Labels haben kann, verwendet es einen längeren Code, um diese Möglichkeiten abzudecken.

Die Menge des Codes, die verwendet wird, um einen Datenpunkt zu kennzeichnen, wird als stochastische Komplexität der Daten bezeichnet. Wenn Forscher das Modell fragen, wie bereit es ist, seinen Glauben an einen Datenpunkt angesichts gegenteiliger Beweise zu ändern, sollte die stochastische Komplexität der Daten abnehmen, wenn das Modell sicher ist.

Das Testen jedes Datenpunkts mit MDL würde jedoch eine enorme Menge an Rechenleistung erfordern.

Beschleunigung des Prozesses
Mit IF-COMP haben die Forscher eine Approximationstechnik entwickelt, die die stochastische Komplexität der Daten genau abschätzen kann, indem eine spezielle Funktion, die sogenannte Einflussfunktion, verwendet wird. Sie verwendeten auch eine statistische Technik namens Temperaturskalierung, die die Kalibrierung der Modellausgaben verbessert. Diese Kombination aus Einflussfunktionen und Temperaturskalierung ermöglicht hochwertige Approximationen der stochastischen Komplexität der Daten.

Am Ende kann IF-COMP effizient gut kalibrierte Unsicherheitsschätzungen erzeugen, die das tatsächliche Vertrauen des Modells widerspiegeln. Die Technik kann auch feststellen, ob das Modell bestimmte Datenpunkte falsch gekennzeichnet hat oder erkennen, welche Datenpunkte Ausreißer sind.

Die Forscher testeten ihr System bei diesen drei Aufgaben und stellten fest, dass es schneller und genauer war als andere Methoden.

"Es ist wirklich wichtig, eine gewisse Sicherheit zu haben, dass das Modell gut kalibriert ist, und es besteht ein zunehmender Bedarf zu erkennen, wann eine bestimmte Vorhersage nicht ganz korrekt ist. Überprüfungswerkzeuge werden zunehmend notwendig bei maschinellen Lernproblemen, da wir große Mengen unüberprüfter Daten verwenden, um Modelle zu erstellen, die auf Probleme angewendet werden, mit denen Menschen konfrontiert sind", sagt Marzyeh Ghassemi, Senior-Autorin der Studie.

IF-COMP ist modellagnostisch, das heißt, es kann genaue Unsicherheitsschätzungen für viele Arten von maschinellen Lernmodellen liefern. Dies könnte eine breitere Anwendung in realen Umgebungen ermöglichen, was letztendlich mehr Praktikern helfen würde, bessere Entscheidungen zu treffen.

"Die Leute müssen verstehen, dass diese Systeme sehr fehleranfällig sind und Schlussfolgerungen auf der Grundlage unzureichender Daten ziehen können. Das Modell mag sehr sicher erscheinen, aber es gibt viele verschiedene Dinge, an die es angesichts gegenteiliger Beweise bereit ist zu glauben", sagt Ng.

In Zukunft planen die Forscher, ihren Ansatz auf große Sprachmodelle anzuwenden und andere potenzielle Anwendungen des Prinzips der minimalen Beschreibungslänge zu untersuchen.

Quelle: Massachusetts Institute of Technology

Creation time: 17 July, 2024

Note for our readers:
The Karlobag.eu portal provides information on daily events and topics important to our community. We emphasize that we are not experts in scientific or medical fields. All published information is for informational purposes only.
Please do not consider the information on our portal to be completely accurate and always consult your own doctor or professional before making decisions based on this information.
Our team strives to provide you with up-to-date and relevant information, and we publish all content with great dedication.

We invite you to share your stories from Karlobag with us!
Your experience and stories about this beautiful place are precious and we would like to hear them.
Feel free to send them to us at karlobag@ karlobag.eu.
Your stories will contribute to the rich cultural heritage of our Karlobag.
Thank you for sharing your memories with us!