Mangelnde Transparenz in KI-Modellschulungsdatensätzen

Mangelnde Transparenz in KI-Schulungsdatensätzen: Wie das neue Tool die Modellgenauigkeit verbessern und Datenverzerrungen reduzieren kann

Eine kürzlich durchgeführte MIT-Studie zeigt gravierende Mängel in der Transparenz von Daten, die zum Trainieren großer Sprachmodelle verwendet werden. Das neue Tool hilft Forschern, Datenquellen besser zu verstehen, wodurch das Risiko von Verzerrungen verringert und die Modelleffizienz verbessert wird.

Photo by: objava za medije/ objava za medije

Kritischer Mangel an Transparenz in Trainingsdatensätzen für große Sprachmodelle
Forscher haben ein Werkzeug entwickelt, das es Experten für künstliche Intelligenz ermöglicht, Daten leichter auszuwählen, die am besten zu ihren Modellen passen, was möglicherweise die Modellgenauigkeit erhöhen und Verzerrungen verringern kann.

Beim Training leistungsstarker Sprachmodelle verlassen sich Forscher auf umfangreiche Datensammlungen, die vielfältige Informationen enthalten, die von Tausenden von Websites gesammelt wurden. Da diese Datensätze jedoch kombiniert und in verschiedenen Sammlungen wiederverwendet werden, gehen wichtige Details über ihre Herkunft oft verloren oder werden unklar.

Dieser Mangel an Informationen wirft nicht nur rechtliche und ethische Bedenken auf, sondern kann auch die Modellleistung negativ beeinflussen. Wenn beispielsweise ein Datensatz falsch klassifiziert ist, könnte ein Forscher, der ein Modell für eine spezifische Aufgabe trainiert, unbeabsichtigt Daten verwenden, die für diesen Zweck nicht geeignet sind.

Darüber hinaus können Daten aus unbekannten Quellen Vorurteile enthalten, die zu unfairen Vorhersagen führen, wenn das Modell in realen Situationen wie Kreditbewertung oder Kundenservice-Interaktionen verwendet wird.

Um die Daten-Transparenz zu erhöhen, führte ein Team aus multidisziplinären Forschern vom MIT und anderen Institutionen eine systematische Überprüfung von über 1.800 Textdatensätzen auf beliebten Websites durch. Sie fanden heraus, dass mehr als 70 Prozent dieser Datensätze kritische Lizenzinformationen fehlten, während etwa 50 Prozent Fehler in der Dokumentation aufwiesen.

Entwicklung von Werkzeugen für größere Daten-Transparenz
Die Forscher entwickelten ein Werkzeug namens Data Provenance Explorer, das es Experten ermöglicht, die Herkunft von Datensätzen einfach zu überprüfen und zu bewerten. Dieses Werkzeug erstellt einen Überblick über Autoren, Quellen, Lizenzen und zulässige Nutzungsmethoden, was die verantwortungsvolle Nutzung von KI-Technologien erheblich verbessern kann.

Data Provenance Explorer hilft nicht nur bei der Auswahl geeigneter Datensätze für spezifische Aufgaben, sondern ermöglicht es den Nutzern auch, Karten mit detaillierten Informationen zu Datensätzen herunterzuladen, was das Verständnis der Risiken und Einschränkungen der verwendeten Daten erleichtert.

Risiken von Verzerrung und unethischer Nutzung
Die Studie zeigte auch, dass fast alle Datensatz-Ersteller aus entwickelten Ländern stammen, was die Fähigkeit des Modells einschränken kann, korrekt in verschiedenen Regionen zu funktionieren. Ein Datensatz für Türkisch, der von Forschern in den USA und China entwickelt wurde, deckt möglicherweise wichtige kulturelle Aspekte nicht ab, was die Modellgenauigkeit im türkischen Kontext beeinflussen könnte.

Die Forscher stellten einen signifikanten Anstieg der Einschränkungen in Datensätzen fest, die 2023 und 2024 erstellt wurden, was auf eine zunehmende Besorgnis in der akademischen Gemeinschaft hindeutet, dass ihre Daten möglicherweise für kommerzielle Zwecke missbraucht werden könnten.

Herausforderungen und zukünftige Richtungen der Forschung
Um die Sammlung dieser Informationen ohne manuelle Überprüfung zu erleichtern, bietet Data Provenance Explorer den Nutzern die Möglichkeit, Datensätze nach verschiedenen Kriterien zu sortieren und zu filtern. Dieses Werkzeug ermöglicht das Herunterladen von zusammengefassten Datensatzmerkmalen, was einen Fortschritt im Verständnis der Daten darstellt, die zum Trainieren von KI-Modellen verwendet werden.

In Zukunft planen die Forscher, ihre Analyse auf multimodale Daten, einschließlich Videos und Audio, auszuweiten und zu untersuchen, wie die Nutzungsbedingungen auf Websites, die als Datenquellen dienen, die Verwendung von Datensätzen widerspiegeln. Sie beabsichtigen auch, mit Regulierungsbehörden zusammenzuarbeiten, um spezifische Fragen zu Urheberrecht und Ethik im Zusammenhang mit der Feinabstimmung von Daten zu klären.

Die Forschung des MIT hebt die Notwendigkeit von Daten-Transparenz hervor und legt damit den Grundstein für eine ethischere und rechtlich konforme Entwicklung künstlicher Intelligenz in der Zukunft.

Unterkünfte in der Nähe finden

Erstellungszeitpunkt: 31 August, 2024

Mangelnde Transparenz in KI-Schulungsdatensätzen: Wie das neue Tool die Modellgenauigkeit verbessern und Datenverzerrungen reduzieren kann

Unterkünfte in der Nähe finden

Redaktion für Wissenschaft und Technologie

Veranstaltungen Kroatien

Green Trails auf Lošinj: Bis 2028 werden in Nerezine 30 Kilometer Wander- und Radwege ausgebaut

Mariana Ilkiv bereitet im Lisinski ein Benefizkonzert vor, das Zagreb einen Abend ukrainischer Kultur und Solidarität bringt

Poreč im Zeichen des Radsports: Nexetis siegte bei den Radfahrerinnen, Viggo Moore gewann den Poreč Classic und das Finale

Aminess hob zum Frauentag die Stärke seiner Mitarbeiterinnen hervor: Frauen halten mehr als die Hälfte der Führungspositionen im Unternehmen

Das Lichterfestival Zagreb 2026 bringt künstlerische Installationen, Botschaften über die Natur und einen neuen Frühlingsrhythmus in die Stadt

Poreč im Zentrum des Istrian Spring: Nach dem Poreč Classic folgt das große Finale des Etappenrennens durch Istrien

Baške Oštarije Trail 2026 auf dem Velebit: Karlobag und die Bergherausforderung bringen drei Rennen und ein Sportspektakel

Opatija, 7. März 2026 im Rhythmus der Gesundheit: kostenloses Nordic Walking und Thalasso Cardio Walk am Lungomare

Mangelnde Transparenz in KI-Schulungsdatensätzen: Wie das neue Tool die Modellgenauigkeit verbessern und Datenverzerrungen reduzieren kann

Unterkünfte in der Nähe finden

Verwandt