Postavke privatnosti

Brak przejrzystości w zestawach danych szkoleniowych dotyczących sztucznej inteligencji: w jaki sposób nowe narzędzie może poprawić dokładność modelu i zmniejszyć stronniczość danych

Niedawne badanie mit ujawniło poważne niedociągnięcia w zakresie przejrzystości danych wykorzystywanych do szkolenia dużych modeli językowych. Nowe narzędzie pomaga badaczom lepiej zrozumieć źródła danych, zmniejszając w ten sposób ryzyko błędu systematycznego i poprawiając wydajność modelu.

Brak przejrzystości w zestawach danych szkoleniowych dotyczących sztucznej inteligencji: w jaki sposób nowe narzędzie może poprawić dokładność modelu i zmniejszyć stronniczość danych
Photo by: objava za medije/ objava za medije

Krytyczny brak przejrzystości w zbiorach danych do szkolenia dużych modeli językowych
Badacze opracowali narzędzie, które pozwala ekspertom sztucznej inteligencji łatwiej wybierać dane najlepiej dopasowane do ich modeli, co może zwiększyć dokładność modeli i zmniejszyć stronniczość.

W szkoleniu potężnych modeli językowych badacze polegają na obszernych zbiorach danych, które obejmują różnorodne informacje zebrane z tysięcy stron internetowych. Jednakże, gdy te zbiory danych są łączone i ponownie wykorzystywane w różnych kolekcjach, kluczowe szczegóły dotyczące ich pochodzenia często giną lub stają się niejasne.

Brak tych informacji nie tylko budzi obawy prawne i etyczne, ale także może negatywnie wpłynąć na wydajność modelu. Na przykład, jeśli zbiór danych jest błędnie sklasyfikowany, badacz szkolący model do określonego zadania może nieumyślnie użyć danych, które nie są odpowiednie do tego celu.

Co więcej, dane z nieznanych źródeł mogą zawierać stronniczość, która prowadzi do niesprawiedliwych prognoz, gdy model jest używany w rzeczywistych sytuacjach, takich jak ocena zdolności kredytowej lub interakcje z klientami w centrach obsługi.

Aby zwiększyć przejrzystość danych, zespół multidyscyplinarnych badaczy z MIT i innych instytucji przeprowadził systematyczny przegląd ponad 1 800 zbiorów danych tekstowych na popularnych stronach internetowych. Odkryli, że więcej niż 70 procent tych zbiorów danych brakowało kluczowych informacji o licencjonowaniu, podczas gdy około 50 procent zawierało błędy w dokumentacji.

Rozwój narzędzi dla większej przejrzystości danych
Badacze opracowali narzędzie o nazwie Data Provenance Explorer, które umożliwia ekspertom łatwe przeglądanie i ocenianie pochodzenia zbiorów danych. Narzędzie to generuje przegląd autorów, źródeł, licencji i dozwolonych metod użycia, co może znacznie poprawić odpowiedzialne korzystanie z technologii AI.

Data Provenance Explorer nie tylko pomaga w wyborze odpowiednich zbiorów danych do konkretnych zadań, ale również pozwala użytkownikom pobierać karty z szczegółowymi informacjami o zbiorach danych, co ułatwia zrozumienie ryzyka i ograniczeń związanych z używanymi danymi.

Ryzyka stronniczości i nieetycznego użycia
Badanie ujawniło również, że prawie wszyscy twórcy zbiorów danych pochodzą z rozwiniętych krajów, co może ograniczyć zdolność modelu do prawidłowego funkcjonowania w różnych regionach. Na przykład, zbiór danych dla języka tureckiego opracowany przez badaczy w USA i Chinach może nie obejmować ważnych aspektów kulturowych, co może wpłynąć na dokładność modelu w kontekście tureckim.

Badacze zauważyli znaczny wzrost restrykcji w zbiorach danych stworzonych w 2023 i 2024 roku, co wskazuje na rosnące obawy społeczności akademickiej, że ich dane mogą być niewłaściwie wykorzystywane w celach komercyjnych.

Wyzwania i przyszłe kierunki badań
Aby ułatwić zbieranie tych informacji bez potrzeby ręcznego przeglądu, Data Provenance Explorer oferuje użytkownikom możliwość sortowania i filtrowania zbiorów danych według różnych kryteriów. Narzędzie to umożliwia pobieranie podsumowanych przeglądów cech zbiorów danych, co jest krokiem naprzód w kierunku lepszego zrozumienia danych używanych do trenowania modeli AI.

W przyszłości badacze planują rozszerzyć swoją analizę na dane multimodalne, w tym wideo i dźwięk, oraz zbadać, jak warunki korzystania z witryn internetowych, które służą jako źródła danych, odzwierciedlają się na używaniu zbiorów danych. Zamierzają również współpracować z organami regulacyjnymi, aby zająć się specyficznymi kwestiami praw autorskich i etyki związanymi z dopasowaniem danych.

Badania MIT podkreślają potrzebę przejrzystości danych, kładąc fundamenty pod bardziej etyczny i zgodny z prawem rozwój sztucznej inteligencji w przyszłości.

Znajdź nocleg w pobliżu

Czas utworzenia: 31 sierpnia, 2024

Redakcja nauki i technologii

Nasza Redakcja Nauki i Technologii powstała z wieloletniej pasji do badania, interpretowania i przybliżania złożonych tematów zwykłym czytelnikom. Piszą u nas pracownicy i wolontariusze, którzy od dziesięcioleci śledzą rozwój nauki i innowacji technologicznych – od odkryć laboratoryjnych po rozwiązania zmieniające codzienne życie. Choć piszemy w liczbie mnogiej, za każdym tekstem stoi prawdziwa osoba z dużym doświadczeniem redakcyjnym i dziennikarskim oraz głębokim szacunkiem dla faktów i informacji możliwych do zweryfikowania.

Nasza redakcja opiera swoją pracę na przekonaniu, że nauka jest najsilniejsza wtedy, gdy jest dostępna dla wszystkich. Dlatego dążymy do jasności, precyzji i zrozumiałości, unikając uproszczeń, które mogłyby obniżyć jakość treści. Często spędzamy godziny, analizując badania, dokumenty techniczne i źródła specjalistyczne, aby każdy temat przedstawić w sposób ciekawy, a nie obciążający. W każdym tekście staramy się łączyć wiedzę naukową z codziennym życiem, pokazując, jak idee z ośrodków badawczych, uniwersytetów i laboratoriów technologicznych kształtują świat wokół nas.

Wieloletnie doświadczenie dziennikarskie pozwala nam rozpoznać to, co dla czytelnika naprawdę ważne – niezależnie od tego, czy chodzi o postępy w sztucznej inteligencji, odkrycia medyczne, rozwiązania energetyczne, misje kosmiczne czy urządzenia, które trafiają do naszego życia codziennego, zanim zdążymy pomyśleć o ich możliwościach. Nasze spojrzenie na technologię nie jest wyłącznie techniczne; interesują nas także ludzkie historie stojące za wielkimi osiągnięciami – badacze, którzy latami dopracowują projekty, inżynierowie zamieniający idee w działające systemy oraz wizjonerzy przesuwający granice możliwości.

W naszej pracy kieruje nami również poczucie odpowiedzialności. Chcemy, by czytelnik mógł zaufać informacjom, które podajemy, dlatego sprawdzamy źródła, porównujemy dane i nie spieszymy się z publikacją, jeśli coś nie jest całkowicie jasne. Zaufanie buduje się wolniej niż pisze wiadomość, ale wierzymy, że tylko taki dziennikarski wysiłek ma trwałą wartość.

Dla nas technologia to coś więcej niż urządzenia, a nauka to coś więcej niż teoria. To dziedziny, które napędzają postęp, kształtują społeczeństwo i otwierają nowe możliwości dla wszystkich, którzy chcą zrozumieć, jak działa świat dziś i dokąd zmierza jutro. Dlatego podchodzimy do każdego tematu z powagą, ale i z ciekawością – bo to właśnie ciekawość otwiera drzwi najlepszym tekstom.

Naszą misją jest przybliżanie czytelnikom świata, który zmienia się szybciej niż kiedykolwiek wcześniej, w przekonaniu, że rzetelne dziennikarstwo może być mostem między ekspertami, innowatorami i wszystkimi, którzy chcą zrozumieć, co dzieje się za nagłówkami. W tym widzimy nasze właściwe zadanie: przekształcać to, co złożone, w zrozumiałe, to, co odległe, w bliskie, a to, co nieznane, w inspirujące.

UWAGA DLA NASZYCH CZYTELNIKÓW
Karlobag.eu dostarcza wiadomości, analizy i informacje o globalnych wydarzeniach oraz tematach interesujących czytelników na całym świecie. Wszystkie opublikowane informacje służą wyłącznie celom informacyjnym.
Podkreślamy, że nie jesteśmy ekspertami w dziedzinie nauki, medycyny, finansów ani prawa. Dlatego przed podjęciem jakichkolwiek decyzji na podstawie informacji z naszego portalu zalecamy konsultację z wykwalifikowanymi ekspertami.
Karlobag.eu może zawierać linki do zewnętrznych stron trzecich, w tym linki afiliacyjne i treści sponsorowane. Jeśli kupisz produkt lub usługę za pośrednictwem tych linków, możemy otrzymać prowizję. Nie mamy kontroli nad treścią ani politykami tych stron i nie ponosimy odpowiedzialności za ich dokładność, dostępność ani za jakiekolwiek transakcje przeprowadzone za ich pośrednictwem.
Jeśli publikujemy informacje o wydarzeniach lub sprzedaży biletów, prosimy pamiętać, że nie sprzedajemy biletów ani bezpośrednio, ani poprzez pośredników. Nasz portal wyłącznie informuje czytelników o wydarzeniach i możliwościach zakupu biletów poprzez zewnętrzne platformy sprzedażowe. Łączymy czytelników z partnerami oferującymi usługi sprzedaży biletów, jednak nie gwarantujemy ich dostępności, cen ani warunków zakupu. Wszystkie informacje o biletach pochodzą od stron trzecich i mogą ulec zmianie bez wcześniejszego powiadomienia.
Wszystkie informacje na naszym portalu mogą ulec zmianie bez wcześniejszego powiadomienia. Korzystając z tego portalu, zgadzasz się czytać treści na własne ryzyko.