Postavke privatnosti

Mangelnde Transparenz in KI-Schulungsdatensätzen: Wie das neue Tool die Modellgenauigkeit verbessern und Datenverzerrungen reduzieren kann

Eine kürzlich durchgeführte MIT-Studie zeigt gravierende Mängel in der Transparenz von Daten, die zum Trainieren großer Sprachmodelle verwendet werden. Das neue Tool hilft Forschern, Datenquellen besser zu verstehen, wodurch das Risiko von Verzerrungen verringert und die Modelleffizienz verbessert wird.

Mangelnde Transparenz in KI-Schulungsdatensätzen: Wie das neue Tool die Modellgenauigkeit verbessern und Datenverzerrungen reduzieren kann
Photo by: objava za medije/ objava za medije

Kritischer Mangel an Transparenz in Trainingsdatensätzen für große Sprachmodelle
Forscher haben ein Werkzeug entwickelt, das es Experten für künstliche Intelligenz ermöglicht, Daten leichter auszuwählen, die am besten zu ihren Modellen passen, was möglicherweise die Modellgenauigkeit erhöhen und Verzerrungen verringern kann.

Beim Training leistungsstarker Sprachmodelle verlassen sich Forscher auf umfangreiche Datensammlungen, die vielfältige Informationen enthalten, die von Tausenden von Websites gesammelt wurden. Da diese Datensätze jedoch kombiniert und in verschiedenen Sammlungen wiederverwendet werden, gehen wichtige Details über ihre Herkunft oft verloren oder werden unklar.

Dieser Mangel an Informationen wirft nicht nur rechtliche und ethische Bedenken auf, sondern kann auch die Modellleistung negativ beeinflussen. Wenn beispielsweise ein Datensatz falsch klassifiziert ist, könnte ein Forscher, der ein Modell für eine spezifische Aufgabe trainiert, unbeabsichtigt Daten verwenden, die für diesen Zweck nicht geeignet sind.

Darüber hinaus können Daten aus unbekannten Quellen Vorurteile enthalten, die zu unfairen Vorhersagen führen, wenn das Modell in realen Situationen wie Kreditbewertung oder Kundenservice-Interaktionen verwendet wird.

Um die Daten-Transparenz zu erhöhen, führte ein Team aus multidisziplinären Forschern vom MIT und anderen Institutionen eine systematische Überprüfung von über 1.800 Textdatensätzen auf beliebten Websites durch. Sie fanden heraus, dass mehr als 70 Prozent dieser Datensätze kritische Lizenzinformationen fehlten, während etwa 50 Prozent Fehler in der Dokumentation aufwiesen.

Entwicklung von Werkzeugen für größere Daten-Transparenz
Die Forscher entwickelten ein Werkzeug namens Data Provenance Explorer, das es Experten ermöglicht, die Herkunft von Datensätzen einfach zu überprüfen und zu bewerten. Dieses Werkzeug erstellt einen Überblick über Autoren, Quellen, Lizenzen und zulässige Nutzungsmethoden, was die verantwortungsvolle Nutzung von KI-Technologien erheblich verbessern kann.

Data Provenance Explorer hilft nicht nur bei der Auswahl geeigneter Datensätze für spezifische Aufgaben, sondern ermöglicht es den Nutzern auch, Karten mit detaillierten Informationen zu Datensätzen herunterzuladen, was das Verständnis der Risiken und Einschränkungen der verwendeten Daten erleichtert.

Risiken von Verzerrung und unethischer Nutzung
Die Studie zeigte auch, dass fast alle Datensatz-Ersteller aus entwickelten Ländern stammen, was die Fähigkeit des Modells einschränken kann, korrekt in verschiedenen Regionen zu funktionieren. Ein Datensatz für Türkisch, der von Forschern in den USA und China entwickelt wurde, deckt möglicherweise wichtige kulturelle Aspekte nicht ab, was die Modellgenauigkeit im türkischen Kontext beeinflussen könnte.

Die Forscher stellten einen signifikanten Anstieg der Einschränkungen in Datensätzen fest, die 2023 und 2024 erstellt wurden, was auf eine zunehmende Besorgnis in der akademischen Gemeinschaft hindeutet, dass ihre Daten möglicherweise für kommerzielle Zwecke missbraucht werden könnten.

Herausforderungen und zukünftige Richtungen der Forschung
Um die Sammlung dieser Informationen ohne manuelle Überprüfung zu erleichtern, bietet Data Provenance Explorer den Nutzern die Möglichkeit, Datensätze nach verschiedenen Kriterien zu sortieren und zu filtern. Dieses Werkzeug ermöglicht das Herunterladen von zusammengefassten Datensatzmerkmalen, was einen Fortschritt im Verständnis der Daten darstellt, die zum Trainieren von KI-Modellen verwendet werden.

In Zukunft planen die Forscher, ihre Analyse auf multimodale Daten, einschließlich Videos und Audio, auszuweiten und zu untersuchen, wie die Nutzungsbedingungen auf Websites, die als Datenquellen dienen, die Verwendung von Datensätzen widerspiegeln. Sie beabsichtigen auch, mit Regulierungsbehörden zusammenzuarbeiten, um spezifische Fragen zu Urheberrecht und Ethik im Zusammenhang mit der Feinabstimmung von Daten zu klären.

Die Forschung des MIT hebt die Notwendigkeit von Daten-Transparenz hervor und legt damit den Grundstein für eine ethischere und rechtlich konforme Entwicklung künstlicher Intelligenz in der Zukunft.

Unterkünfte in der Nähe finden

Erstellungszeitpunkt: 31 August, 2024

Redaktion für Wissenschaft und Technologie

Unsere Redaktion für Wissenschaft und Technologie ist aus einer langjährigen Leidenschaft für das Erforschen, Interpretieren und Vermitteln komplexer Themen an alltägliche Leser entstanden. Bei uns schreiben Mitarbeiter und freiwillige Autoren, die seit Jahrzehnten die Entwicklungen in Wissenschaft und technologischer Innovation verfolgen – von Laborentdeckungen bis zu Lösungen, die den Alltag verändern. Obwohl wir in der Mehrzahl schreiben, steht hinter jedem Text eine echte Person mit umfangreicher redaktioneller und journalistischer Erfahrung sowie großem Respekt gegenüber Fakten und überprüfbaren Informationen.

Unsere Redaktion arbeitet aus der Überzeugung heraus, dass Wissenschaft am stärksten ist, wenn sie für alle zugänglich ist. Deshalb streben wir nach Klarheit, Präzision und Verständlichkeit, ohne jene Vereinfachungen, die die Qualität des Inhalts mindern würden. Oft verbringen wir Stunden mit dem Studium von Forschungsarbeiten, technischen Dokumenten und Fachquellen, um jedes Thema so zu präsentieren, dass es den Leser interessiert und nicht belastet. In jedem Text versuchen wir, wissenschaftliche Erkenntnisse mit dem realen Leben zu verbinden und zu zeigen, wie Ideen aus Forschungszentren, Universitäten und Technologielaboren die Welt um uns herum gestalten.

Unsere langjährige journalistische Erfahrung ermöglicht uns zu erkennen, was für den Leser wirklich wichtig ist – ob es um Fortschritte in der künstlichen Intelligenz geht, medizinische Entdeckungen, Energielösungen, Weltraummissionen oder Geräte, die unseren Alltag erreichen, bevor wir uns überhaupt ihre Möglichkeiten vorstellen können. Unser Blick auf Technologie ist nicht nur technisch; uns interessieren auch die menschlichen Geschichten hinter großen Entwicklungen – Forscher, die jahrelang an Projekten arbeiten, Ingenieure, die Ideen in funktionierende Systeme verwandeln, und Visionäre, die die Grenzen des Möglichen erweitern.

Auch ein starkes Verantwortungsgefühl leitet uns bei der Arbeit. Wir möchten, dass der Leser Vertrauen in die von uns gelieferten Informationen haben kann, daher überprüfen wir Quellen, vergleichen Daten und zögern mit der Veröffentlichung, wenn etwas nicht ganz klar ist. Vertrauen entsteht langsamer, als Nachrichten geschrieben werden, doch wir glauben, dass nur solch ein Journalismus langfristig wertvoll ist.

Für uns ist Technologie mehr als Geräte, und Wissenschaft mehr als Theorie. Es sind Bereiche, die Fortschritt antreiben, die Gesellschaft prägen und neue Möglichkeiten eröffnen für alle, die verstehen wollen, wie die Welt heute funktioniert und wohin sie morgen geht. Deshalb gehen wir jedes Thema mit Ernsthaftigkeit, aber auch mit Neugier an – denn gerade Neugier öffnet die Tür zu den besten Texten.

Unsere Mission ist es, den Lesern eine Welt näherzubringen, die sich schneller denn je verändert, im Bewusstsein, dass qualitativ hochwertiger Journalismus eine Brücke sein kann zwischen Experten, Innovatoren und all jenen, die verstehen wollen, was hinter den Schlagzeilen geschieht. Darin sehen wir unsere wahre Aufgabe: das Komplexe verständlich zu machen, das Entfernte nah und das Unbekannte inspirierend.

HINWEIS FÜR UNSERE LESER
Karlobag.eu bietet Nachrichten, Analysen und Informationen zu globalen Ereignissen und Themen, die für Leser weltweit von Interesse sind. Alle veröffentlichten Informationen dienen ausschließlich zu Informationszwecken.
Wir betonen, dass wir keine Experten in den Bereichen Wissenschaft, Medizin, Finanzen oder Recht sind. Daher empfehlen wir, vor der Entscheidungsfindung auf Basis der Informationen unseres Portals, sich mit qualifizierten Experten zu beraten.
Karlobag.eu kann Links zu externen Drittanbieterseiten enthalten, einschließlich Affiliate-Links und gesponserten Inhalten. Wenn Sie über diese Links ein Produkt oder eine Dienstleistung kaufen, können wir eine Provision erhalten. Wir haben keine Kontrolle über die Inhalte oder Richtlinien dieser Seiten und übernehmen keine Verantwortung für deren Genauigkeit, Verfügbarkeit oder für Transaktionen, die Sie über diese Seiten tätigen.
Wenn wir Informationen über Veranstaltungen oder Ticketverkäufe veröffentlichen, beachten Sie bitte, dass wir weder direkt noch über Vermittler Tickets verkaufen. Unser Portal informiert ausschließlich über Veranstaltungen und Kaufmöglichkeiten über externe Verkaufsplattformen. Wir verbinden Leser mit Partnern, die Ticketverkaufsdienste anbieten, garantieren jedoch nicht deren Verfügbarkeit, Preise oder Kaufbedingungen. Alle Ticketinformationen werden von Dritten bezogen und können ohne vorherige Ankündigung Änderungen unterliegen. Wir empfehlen, die Verkaufsbedingungen beim gewählten Partner vor einem Kauf sorgfältig zu überprüfen, da das Portal Karlobag.eu keine Verantwortung für Transaktionen oder Verkaufsbedingungen von Tickets übernimmt.
Alle Informationen auf unserem Portal können ohne vorherige Ankündigung geändert werden. Durch die Nutzung dieses Portals stimmen Sie zu, dass Sie die Inhalte auf eigenes Risiko lesen.