Brak przejrzystości w zestawach danych treningowych modelu sztucznej inteligencji

Brak przejrzystości w zestawach danych szkoleniowych dotyczących sztucznej inteligencji: w jaki sposób nowe narzędzie może poprawić dokładność modelu i zmniejszyć stronniczość danych

Niedawne badanie mit ujawniło poważne niedociągnięcia w zakresie przejrzystości danych wykorzystywanych do szkolenia dużych modeli językowych. Nowe narzędzie pomaga badaczom lepiej zrozumieć źródła danych, zmniejszając w ten sposób ryzyko błędu systematycznego i poprawiając wydajność modelu.

Photo by: objava za medije/ objava za medije

Krytyczny brak przejrzystości w zbiorach danych do szkolenia dużych modeli językowych
Badacze opracowali narzędzie, które pozwala ekspertom sztucznej inteligencji łatwiej wybierać dane najlepiej dopasowane do ich modeli, co może zwiększyć dokładność modeli i zmniejszyć stronniczość.

W szkoleniu potężnych modeli językowych badacze polegają na obszernych zbiorach danych, które obejmują różnorodne informacje zebrane z tysięcy stron internetowych. Jednakże, gdy te zbiory danych są łączone i ponownie wykorzystywane w różnych kolekcjach, kluczowe szczegóły dotyczące ich pochodzenia często giną lub stają się niejasne.

Brak tych informacji nie tylko budzi obawy prawne i etyczne, ale także może negatywnie wpłynąć na wydajność modelu. Na przykład, jeśli zbiór danych jest błędnie sklasyfikowany, badacz szkolący model do określonego zadania może nieumyślnie użyć danych, które nie są odpowiednie do tego celu.

Co więcej, dane z nieznanych źródeł mogą zawierać stronniczość, która prowadzi do niesprawiedliwych prognoz, gdy model jest używany w rzeczywistych sytuacjach, takich jak ocena zdolności kredytowej lub interakcje z klientami w centrach obsługi.

Aby zwiększyć przejrzystość danych, zespół multidyscyplinarnych badaczy z MIT i innych instytucji przeprowadził systematyczny przegląd ponad 1 800 zbiorów danych tekstowych na popularnych stronach internetowych. Odkryli, że więcej niż 70 procent tych zbiorów danych brakowało kluczowych informacji o licencjonowaniu, podczas gdy około 50 procent zawierało błędy w dokumentacji.

Rozwój narzędzi dla większej przejrzystości danych
Badacze opracowali narzędzie o nazwie Data Provenance Explorer, które umożliwia ekspertom łatwe przeglądanie i ocenianie pochodzenia zbiorów danych. Narzędzie to generuje przegląd autorów, źródeł, licencji i dozwolonych metod użycia, co może znacznie poprawić odpowiedzialne korzystanie z technologii AI.

Data Provenance Explorer nie tylko pomaga w wyborze odpowiednich zbiorów danych do konkretnych zadań, ale również pozwala użytkownikom pobierać karty z szczegółowymi informacjami o zbiorach danych, co ułatwia zrozumienie ryzyka i ograniczeń związanych z używanymi danymi.

Ryzyka stronniczości i nieetycznego użycia
Badanie ujawniło również, że prawie wszyscy twórcy zbiorów danych pochodzą z rozwiniętych krajów, co może ograniczyć zdolność modelu do prawidłowego funkcjonowania w różnych regionach. Na przykład, zbiór danych dla języka tureckiego opracowany przez badaczy w USA i Chinach może nie obejmować ważnych aspektów kulturowych, co może wpłynąć na dokładność modelu w kontekście tureckim.

Badacze zauważyli znaczny wzrost restrykcji w zbiorach danych stworzonych w 2023 i 2024 roku, co wskazuje na rosnące obawy społeczności akademickiej, że ich dane mogą być niewłaściwie wykorzystywane w celach komercyjnych.

Wyzwania i przyszłe kierunki badań
Aby ułatwić zbieranie tych informacji bez potrzeby ręcznego przeglądu, Data Provenance Explorer oferuje użytkownikom możliwość sortowania i filtrowania zbiorów danych według różnych kryteriów. Narzędzie to umożliwia pobieranie podsumowanych przeglądów cech zbiorów danych, co jest krokiem naprzód w kierunku lepszego zrozumienia danych używanych do trenowania modeli AI.

W przyszłości badacze planują rozszerzyć swoją analizę na dane multimodalne, w tym wideo i dźwięk, oraz zbadać, jak warunki korzystania z witryn internetowych, które służą jako źródła danych, odzwierciedlają się na używaniu zbiorów danych. Zamierzają również współpracować z organami regulacyjnymi, aby zająć się specyficznymi kwestiami praw autorskich i etyki związanymi z dopasowaniem danych.

Badania MIT podkreślają potrzebę przejrzystości danych, kładąc fundamenty pod bardziej etyczny i zgodny z prawem rozwój sztucznej inteligencji w przyszłości.

Znajdź nocleg w pobliżu

Czas utworzenia: 31 sierpnia, 2024

Brak przejrzystości w zestawach danych szkoleniowych dotyczących sztucznej inteligencji: w jaki sposób nowe narzędzie może poprawić dokładność modelu i zmniejszyć stronniczość danych

Znajdź nocleg w pobliżu

Redakcja nauki i technologii

Wydarzenia Chorwacja

Piknik w Rakitnicy 1 maja przynosi tradycję, fasolę, muzykę i wycieczkę z przewodnikiem do Velikiej Mrdakovicy koło Vodic

Smaki witalności na Lošinju: Festiwal Kuchni Lošinju przynosi miesiąc wyspiarskiej gastronomii

Griffon Trail na Cresie przynosi aktywny weekend z trzema biegami trailowymi, programem rodzinnym i wejściem na szczyt Sis

Auto Servis Orešković w Gospiću pokazał uczniom, jak wygląda nowoczesna praktyka mechaniki samochodowej

Nowy pojazd stacji HGSS Gospić wzmacnia bezpieczeństwo i gotowość ratowników na wymagającym terenie Liki

Cres pod znakiem kvarnerskiej jagnięciny i sera: festiwal połączył wyspiarskie smaki, dziedzictwo i regionalną turystykę

Vukovar od 1 do 3 maja obchodzi Dzień Miasta z wielkim festiwalem niematerialnego dziedzictwa kulturowego i tradycji

Rovinj przygotowuje na 1 maja całodniowe świętowanie na Zlatni rt z muzyką, grami i programem dla rodzin

Brak przejrzystości w zestawach danych szkoleniowych dotyczących sztucznej inteligencji: w jaki sposób nowe narzędzie może poprawić dokładność modelu i zmniejszyć stronniczość danych

Znajdź nocleg w pobliżu

Powiązane