Postavke privatnosti

Manjak transparentnosti u datasetovima za treniranje umjetne inteligencije: kako novi alat može poboljšati točnost modela i smanjiti pristranost podataka

Nedavna studija MIT-a otkriva ozbiljne nedostatke u transparentnosti podataka korištenih za treniranje velikih jezičnih modela. Novi alat pomaže istraživačima da bolje razumiju izvore podataka, čime se smanjuje rizik od pristranosti i poboljšava učinkovitost modela.

Manjak transparentnosti u datasetovima za treniranje umjetne inteligencije: kako novi alat može poboljšati točnost modela i smanjiti pristranost podataka
Photo by: objava za medije/ objava za medije

Kritičan nedostatak transparentnosti u datasetovima za treniranje velikih jezičnih modela
Istraživači su razvili alat koji omogućuje stručnjacima za umjetnu inteligenciju lakšu selekciju podataka koji najbolje odgovaraju njihovim modelima, čime se može povećati preciznost modela i smanjiti pristranost.

U treniranju moćnih jezičnih modela, istraživači se oslanjaju na opsežne zbirke podataka koje obuhvaćaju raznovrsne informacije prikupljene s tisuća web stranica. No, kako se ti datasetovi kombiniraju i ponovno koriste u različitim kolekcijama, ključni detalji o njihovom podrijetlu često se gube ili postaju nejasni.

Ovaj nedostatak informacija ne samo da podiže pravne i etičke zabrinutosti, već može i negativno utjecati na performanse modela. Na primjer, ako je dataset pogrešno kategoriziran, istraživač koji trenira model za određeni zadatak može nesvjesno koristiti podatke koji nisu prikladni za tu svrhu.

Uz to, podaci iz nepoznatih izvora mogu sadržavati pristranosti koje dovode do nepravednih predviđanja kad se model koristi u stvarnim situacijama, poput procjene kreditne sposobnosti ili interakcije s korisnicima u uslužnim centrima.

Kako bi se povećala transparentnost podataka, tim multidisciplinarnih istraživača s MIT-a i drugih institucija proveo je sustavni pregled više od 1.800 tekstualnih datasetova na popularnim web stranicama. Otkrili su da više od 70 posto tih datasetova nije sadržavalo ključne informacije o licenciranju, dok je oko 50 posto imalo pogreške u dokumentaciji.

Razvoj alata za veću transparentnost podataka
Istraživači su razvili alat pod nazivom Data Provenance Explorer koji omogućava stručnjacima da jednostavno pregledaju i ocijene porijeklo datasetova. Ovaj alat generira pregled autora, izvora, licenci i dopuštenih načina korištenja, što može značajno poboljšati odgovorno korištenje AI tehnologija.

Data Provenance Explorer ne samo da pomaže u odabiru odgovarajućih datasetova za specifične zadatke, već omogućuje korisnicima da preuzmu kartice s detaljnim informacijama o datasetovima, čime se olakšava razumijevanje rizika i ograničenja povezanih s korištenim podacima.

Rizici pristranosti i neetičke primjene
Studija je također otkrila da gotovo svi tvorci datasetova dolaze iz razvijenih zemalja, što može ograničiti sposobnost modela da ispravno funkcionira u različitim regijama. Na primjer, dataset za turski jezik razvijen od strane istraživača u SAD-u i Kini možda neće obuhvatiti važne kulturne aspekte, što može utjecati na točnost modela u turskom kontekstu.

Istraživači su primijetili značajan porast restrikcija u datasetovima stvorenim 2023. i 2024. godine, što ukazuje na rastuću zabrinutost akademske zajednice da bi njihovi podaci mogli biti nepropisno korišteni u komercijalne svrhe.

Izazovi i budući smjerovi istraživanja
Kako bi se olakšalo prikupljanje ovih informacija bez potrebe za ručnim pregledom, Data Provenance Explorer nudi korisnicima mogućnost sortiranja i filtriranja datasetova prema različitim kriterijima. Ovaj alat omogućuje preuzimanje sažetih pregleda karakteristika datasetova, što je korak naprijed u pravcu boljeg razumijevanja podataka na kojima se treniraju AI modeli.

U budućnosti, istraživači planiraju proširiti svoju analizu na multimodalne podatke, uključujući videozapise i zvuk, te istražiti kako se uvjeti korištenja na web stranicama koje služe kao izvori podataka odražavaju na korištenje datasetova. Također namjeravaju surađivati s regulatorima kako bi se pozabavili jedinstvenim pitanjima autorskih prava i etike u vezi s finetuningom podataka.

MIT-ovo istraživanje naglašava potrebu za transparentnošću podataka, čime se postavlja temelj za etičniji i pravno usklađen razvoj umjetne inteligencije u budućnosti.

Kreirano: subota, 31. kolovoza, 2024.

Pronađite smještaj u blizini

Redakcija za znanost i tehnologiju

Naša Redakcija za znanost i tehnologiju nastala je iz dugogodišnje strasti prema istraživanju, tumačenju i približavanju složenih tema običnim čitateljima. U njoj pišu zaposlenici i volonteri koji već desetljećima prate razvoj znanosti i tehnoloških inovacija, od laboratorijskih otkrića do rješenja koja mijenjaju svakodnevni život. Iako pišemo u množini, iza svakog teksta stoji stvarna osoba s dugim uredničkim i novinarskim iskustvom te dubokim poštovanjem prema činjenicama i provjerljivim informacijama.

Naša redakcija temelji svoj rad na uvjerenju da je znanost najjača kada je dostupna svima. Zato težimo jasnoći, preciznosti i razumljivosti, ali bez pojednostavljivanja koje bi narušilo kvalitetu sadržaja. Često provodimo sate proučavajući istraživanja, tehničke dokumente i stručne izvore kako bismo svaku temu predstavili čitatelju na način koji ga neće opteretiti, nego zainteresirati. U svakom tekstu nastojimo povezati znanstvene spoznaje s realnim životom, pokazujući kako ideje iz istraživačkih centara, sveučilišta i tehnoloških laboratorija oblikuju svijet oko nas.

Dugogodišnje iskustvo u novinarstvu omogućuje nam da prepoznamo što je za čitatelja zaista važno, bilo da se radi o napretku u umjetnoj inteligenciji, medicinskim otkrićima, energetskim rješenjima, svemirskim misijama ili uređajima koji ulaze u našu svakodnevicu prije nego što stignemo uopće zamisliti njihove mogućnosti. Naš pogled na tehnologiju nije isključivo tehnički; zanimaju nas i ljudske priče koje stoje iza velikih pomaka – istraživači koji godinama privode kraju projekte, inženjeri koji pretvaraju ideje u funkcionalne sustave, te vizionari koji guraju granice mogućega.

U radu nas vodi i osjećaj odgovornosti. Želimo da čitatelj može imati povjerenje u informacije koje donosimo, pa provjeravamo izvore, uspoređujemo podatke i ne žurimo s objavom ako nešto nije sasvim jasno. Povjerenje gradimo sporije nego što se piše vijest, ali vjerujemo da je jedino takvo novinarstvo dugoročno vrijedno.

Za nas je tehnologija više od uređaja, a znanost više od teorije. To su područja koja pokreću napredak, oblikuju društvo i pružaju nove mogućnosti svima koji žele razumjeti kako svijet funkcionira danas i kamo ide sutra. Upravo zato u našoj redakciji pristupamo svakoj temi s ozbiljnošću, ali i s dozom znatiželje, jer upravo znatiželja otvara vrata najboljim tekstovima.

Naša je misija približiti čitateljima svijet koji se mijenja brže nego ikada prije, uz uvjerenje da kvalitetno novinarstvo može biti most između stručnjaka, inovatora i svih onih koji žele razumjeti što se događa iza naslova. U tome vidimo svoj pravi zadatak: pretvoriti kompleksno u razumljivo, udaljeno u blisko, a nepoznato u inspirativno.

NAPOMENA ZA NAŠE ČITATELJE
Karlobag.eu pruža vijesti, analize i informacije o globalnim događanjima i temama od interesa za čitatelje širom svijeta. Sve objavljene informacije služe isključivo u informativne svrhe.
Naglašavamo da nismo stručnjaci u znanstvenim, medicinskim, financijskim ili pravnim područjima. Stoga, prije donošenja bilo kakvih odluka temeljenih na informacijama s našeg portala, preporučujemo da se konzultirate s kvalificiranim stručnjacima.
Karlobag.eu može sadržavati poveznice na vanjske stranice trećih strana, uključujući affiliate linkove i sponzorirane sadržaje. Ako kupite proizvod ili uslugu putem ovih poveznica, možemo ostvariti proviziju. Nemamo kontrolu nad sadržajem ili politikama tih stranica te ne snosimo odgovornost za njihovu točnost, dostupnost ili bilo kakve transakcije koje obavite putem njih.
Ako objavljujemo informacije o događajima ili prodaji ulaznica, napominjemo da mi ne prodajemo ulaznice niti izravno niti preko posrednika. Naš portal isključivo informira čitatelje o događajima i mogućnostima kupnje putem vanjskih prodajnih platformi. Povezujemo čitatelje s partnerima koji nude usluge prodaje ulaznica, ali ne jamčimo njihovu dostupnost, cijene ili uvjete kupnje. Sve informacije o ulaznicama preuzete su od trećih strana i mogu biti podložne promjenama bez prethodne najave. Preporučujemo da prije bilo kakve kupnje temeljito provjerite uvjete prodaje kod odabranog partnera, budući da portal Karlobag.eu ne preuzima odgovornost za transakcije ili uvjete prodaje ulaznica.
Sve informacije na našem portalu podložne su promjenama bez prethodne najave. Korištenjem ovog portala prihvaćate da čitate sadržaj na vlastitu odgovornost.