Technik zur Beurteilung der Zuverlässigkeit des am mit entwickelten Gründungsmodells

Entwicklung einer Technik zur Bewertung der Zuverlässigkeit von Fundamentmodellen vor der Anwendung auf bestimmte Aufgaben vom mit und MIT-IBM Watson AI Laboratory

Forscher des mit und des MIT-IBM Watson AI Laboratory haben eine neue Technik entwickelt, um die Zuverlässigkeit von Fundamentmodellen zu bewerten, bevor sie auf bestimmte Aufgaben angewendet werden, wobei ein Algorithmus zur Bewertung der Modellkonsistenz verwendet wird. Diese Lösung kann dazu beitragen, Fehler in sicherheitskritischen Situationen zu reduzieren und eine bessere Modellauswahl zu ermöglichen, ohne dass tatsächliche Daten getestet werden müssen.

Photo by: Domagoj Skledar/ arhiva (vlastita)

Forscher am MIT und am MIT-IBM Watson AI Lab haben eine Technik entwickelt, um die Zuverlässigkeit von Foundation-Modellen zu bewerten, bevor sie auf eine spezifische Aufgabe angewendet werden. Dies erreichen sie, indem sie eine Reihe von Foundation-Modellen analysieren, die sich leicht voneinander unterscheiden. Der Algorithmus bewertet die Konsistenz der Repräsentationen, die jedes Modell über dieselben Testdaten lernt. Wenn die Repräsentationen konsistent sind, wird das Modell als zuverlässig angesehen.

Im Vergleich zu den modernsten Methoden stellten die Forscher fest, dass ihre Methode besser in der Lage ist, die Zuverlässigkeit von Foundation-Modellen bei verschiedenen Klassifikationsaufgaben zu erfassen.

Diese Technik ermöglicht es den Nutzern, zu entscheiden, ob das Modell in einer bestimmten Umgebung angewendet werden soll, ohne dass Tests mit realen Daten erforderlich sind. Dies ist besonders nützlich in Situationen, in denen Daten aufgrund von Datenschutzproblemen möglicherweise nicht verfügbar sind, wie z. B. Gesundheitsdaten. Darüber hinaus kann die Technik Modelle nach ihren Zuverlässigkeitsergebnissen ranken, sodass die Nutzer das beste Modell für ihre Aufgabe auswählen können.

„Alle Modelle können Fehler machen, aber Modelle, die wissen, wann sie falsch liegen, sind nützlicher. Das Problem der Quantifizierung von Unsicherheit oder Zuverlässigkeit ist bei diesen Foundation-Modellen schwieriger, da ihre abstrakten Repräsentationen schwer zu vergleichen sind. Unsere Methode ermöglicht es, zu quantifizieren, wie zuverlässig die Repräsentation eines Modells für beliebige Eingabedaten ist,” sagt Hauptautor Navid Azizan, Professor am MIT und Mitglied des Laboratory for Information and Decision Systems (LIDS).

Zusammen mit ihm arbeiteten auch Hauptautor Young-Jin Park, Doktorand am LIDS; Hao Wang, Forschungswissenschaftler am MIT-IBM Watson AI Lab; und Shervin Ardeshir, leitender Forschungswissenschaftler bei Netflix. Die Arbeit wird auf der Konferenz über Unsicherheit in der Künstlichen Intelligenz vorgestellt.

Konsensmessung
Traditionelle Modelle des maschinellen Lernens werden darauf trainiert, eine spezifische Aufgabe zu erfüllen. Diese Modelle liefern in der Regel eine konkrete Vorhersage basierend auf den Eingaben. Ein Beispiel: Ein Modell könnte sagen, ob ein bestimmtes Bild eine Katze oder einen Hund enthält. In diesem Fall kann die Bewertung der Zuverlässigkeit so einfach sein wie das Überprüfen der endgültigen Vorhersage.

Aber Foundation-Modelle sind anders. Das Modell wird vorab mit allgemeinen Daten trainiert, in einer Umgebung, in der die Entwickler nicht alle Aufgaben kennen, auf die es angewendet wird. Benutzer passen es an ihre spezifischen Aufgaben an, nachdem es bereits trainiert wurde.

Um die Zuverlässigkeit von Foundation-Modellen zu bewerten, verwendeten die Forscher einen Ensemble-Ansatz, indem sie mehrere Modelle trainierten, die viele Merkmale teilen, aber sich geringfügig unterscheiden.

„Unsere Idee ist wie das Messen des Konsenses. Wenn all diese Foundation-Modelle für beliebige Daten in unserem Datensatz konsistente Repräsentationen liefern, können wir sagen, dass dieses Modell zuverlässig ist,” sagt Park.

Aber sie stießen auf ein Problem: Wie vergleicht man abstrakte Repräsentationen?
„Diese Modelle liefern nur einen Vektor, der aus einigen Zahlen besteht, daher können wir sie nicht leicht vergleichen,” fügt er hinzu.

Sie lösten das Problem mit einer Idee namens Nachbarschaftskonsistenz.

Für ihren Ansatz bereiten die Forscher einen Satz zuverlässiger Referenzpunkte für Tests am Ensemble der Modelle vor. Dann untersuchen sie für jedes Modell die Referenzpunkte, die sich nahe der Repräsentation des Modells für den Testpunkt befinden.

Indem sie die Konsistenz benachbarter Punkte betrachten, können sie die Zuverlässigkeit des Modells bewerten.

Repräsentationen ausrichten
Foundation-Modelle kartieren Datenpunkte in das, was als Repräsentationsraum bekannt ist. Eine Möglichkeit, diesen Raum zu betrachten, ist als eine Kugel. Jedes Modell kartiert ähnliche Datenpunkte an denselben Ort in seiner Kugel, sodass Bilder von Katzen an einen Ort gehen und Bilder von Hunden an einen anderen.

Aber jedes Modell würde Tiere unterschiedlich in seiner Kugel kartieren, sodass während Katzen in der Nähe des Südpols einer Kugel gruppiert sein könnten, ein anderes Modell Katzen irgendwo in der Nordhalbkugel kartieren könnte.

Forscher verwenden benachbarte Punkte als Anker, um diese Kugeln auszurichten, damit sie Repräsentationen vergleichen können. Wenn die Nachbarn eines Datenpunkts über mehrere Repräsentationen konsistent sind, können wir sicher sein, dass das Modell für diesen Punkt zuverlässig ist.

Als sie diesen Ansatz bei einer breiten Palette von Klassifikationsaufgaben testeten, stellten sie fest, dass er viel konsistenter war als die Grundmethoden. Darüber hinaus wurde er nicht von herausfordernden Testpunkten verwirrt, die andere Methoden verwirrten.

Darüber hinaus kann ihr Ansatz verwendet werden, um die Zuverlässigkeit für beliebige Eingabedaten zu bewerten, sodass beurteilt werden kann, wie gut das Modell für eine bestimmte Art von Individuum funktioniert, z. B. einen Patienten mit bestimmten Merkmalen.

„Selbst wenn alle Modelle durchschnittliche Leistungen erbringen, werden Sie aus individueller Perspektive das Modell bevorzugen, das für dieses Individuum am besten funktioniert,” sagt Wang.

Eine Einschränkung ergibt sich aus der Notwendigkeit, ein Ensemble von Foundation-Modellen zu trainieren, was rechnerisch aufwendig ist. In Zukunft planen sie, effizientere Wege zu finden, um mehrere Modelle zu erstellen, möglicherweise durch die Verwendung kleiner Störungen eines einzigen Modells.

„Mit dem aktuellen Trend, Foundation-Modelle für ihre Repräsentationen zu verwenden, um verschiedene Aufgaben zu unterstützen – von der Feinabstimmung bis zur Generierung mit angereicherten Abrufansätzen – wird das Thema der Quantifizierung von Unsicherheit auf der Repräsentationsebene immer wichtiger, aber herausfordernd, da die Repräsentationen selbst keine Verankerung haben. Stattdessen geht es darum, wie die Repräsentationen verschiedener Eingaben miteinander verbunden sind, eine Idee, die diese Arbeit durch den vorgeschlagenen Nachbarschaftskonsistenz-Score sauber umsetzt,” sagt Marco Pavone, außerordentlicher Professor in der Abteilung für Luft- und Raumfahrttechnik an der Stanford University, der nicht an dieser Arbeit beteiligt war. „Dies ist ein vielversprechender Schritt in Richtung einer hochwertigen Unsicherheitsquantifizierung für Repräsentationsmodelle, und ich bin gespannt auf zukünftige Erweiterungen, die ohne die Notwendigkeit eines Modell-Ensembles funktionieren können, um diesen Ansatz wirklich in Foundation-Größe zu ermöglichen.”

Diese Arbeit wurde teilweise vom MIT-IBM Watson AI Lab, MathWorks und Amazon finanziert.

Unterkünfte in der Nähe finden

Erstellungszeitpunkt: 17 Juli, 2024

Entwicklung einer Technik zur Bewertung der Zuverlässigkeit von Fundamentmodellen vor der Anwendung auf bestimmte Aufgaben vom mit und MIT-IBM Watson AI Laboratory

Unterkünfte in der Nähe finden

Redaktion für Wissenschaft und Technologie

Veranstaltungen Kroatien

Jubiläums-Wine-ViP-Event in Zadar: Weiterbildung und ein Eno-Gastro-Erlebnis im Hotel A’Mare mit karitativer Note

Oster-Workshop am Frauentag: Dragica Lukin am 8. März auf der Stancija Buršić in Vodnjan mit Süßspeisen und Mittagessen

Opatija 2026 bringt die „Oase der Gesundheit und des Wellness“: kostenlose Spaziergänge, Thalasso Cardio Walk, SUP und einen Benefizlauf

Benefizausstellung auf dem Korzo in Rijeka: „Lächelnde Gesichter des Rijekaer Karnevals“ helfen dem kleinen Val bis zum 5. März

Wohltätige Ausstellung „Lächelnde Gesichter des Rijekaer Karnevals“ am 20. Februar auf dem Korzo, Hilfe für Val Radovanović

Im März stärken die kostenlosen Ausflüge „Lerne die Apsyrtiden kennen“ das Wissen der Vermieter in Mali Lošinj und den Tourismus des Archipels

Wine ViP Event in Zadar am 24. Februar im Hotel A’Mare: Schulungen, Verkostungen und Spenden für die Liga protiv raka

Kostenlose Führungen in Rijeka, Opatija und Kastav zum Tag der Fremdenführer am 21. und 22. Februar 2026 mit Anmeldung per E-Mail

Entwicklung einer Technik zur Bewertung der Zuverlässigkeit von Fundamentmodellen vor der Anwendung auf bestimmte Aufgaben vom mit und MIT-IBM Watson AI Laboratory

Unterkünfte in der Nähe finden

Verwandt