Manjak transparentnosti u datasetovima za treniranje umjetne inteligencije: kako novi alat može poboljšati točnost modela i smanjiti pristranost podataka

Nedavna studija MIT-a otkriva ozbiljne nedostatke u transparentnosti podataka korištenih za treniranje velikih jezičnih modela. Novi alat pomaže istraživačima da bolje razumiju izvore podataka, čime se smanjuje rizik od pristranosti i poboljšava učinkovitost modela.

Manjak transparentnosti u datasetovima za treniranje umjetne inteligencije: kako novi alat može poboljšati točnost modela i smanjiti pristranost podataka
Photo by: objava za medije/ objava za medije

Kritičan nedostatak transparentnosti u datasetovima za treniranje velikih jezičnih modela
Istraživači su razvili alat koji omogućuje stručnjacima za umjetnu inteligenciju lakšu selekciju podataka koji najbolje odgovaraju njihovim modelima, čime se može povećati preciznost modela i smanjiti pristranost.

U treniranju moćnih jezičnih modela, istraživači se oslanjaju na opsežne zbirke podataka koje obuhvaćaju raznovrsne informacije prikupljene s tisuća web stranica. No, kako se ti datasetovi kombiniraju i ponovno koriste u različitim kolekcijama, ključni detalji o njihovom podrijetlu često se gube ili postaju nejasni.

Ovaj nedostatak informacija ne samo da podiže pravne i etičke zabrinutosti, već može i negativno utjecati na performanse modela. Na primjer, ako je dataset pogrešno kategoriziran, istraživač koji trenira model za određeni zadatak može nesvjesno koristiti podatke koji nisu prikladni za tu svrhu.

Uz to, podaci iz nepoznatih izvora mogu sadržavati pristranosti koje dovode do nepravednih predviđanja kad se model koristi u stvarnim situacijama, poput procjene kreditne sposobnosti ili interakcije s korisnicima u uslužnim centrima.

Kako bi se povećala transparentnost podataka, tim multidisciplinarnih istraživača s MIT-a i drugih institucija proveo je sustavni pregled više od 1.800 tekstualnih datasetova na popularnim web stranicama. Otkrili su da više od 70 posto tih datasetova nije sadržavalo ključne informacije o licenciranju, dok je oko 50 posto imalo pogreške u dokumentaciji.

Razvoj alata za veću transparentnost podataka
Istraživači su razvili alat pod nazivom Data Provenance Explorer koji omogućava stručnjacima da jednostavno pregledaju i ocijene porijeklo datasetova. Ovaj alat generira pregled autora, izvora, licenci i dopuštenih načina korištenja, što može značajno poboljšati odgovorno korištenje AI tehnologija.

Data Provenance Explorer ne samo da pomaže u odabiru odgovarajućih datasetova za specifične zadatke, već omogućuje korisnicima da preuzmu kartice s detaljnim informacijama o datasetovima, čime se olakšava razumijevanje rizika i ograničenja povezanih s korištenim podacima.

Rizici pristranosti i neetičke primjene
Studija je također otkrila da gotovo svi tvorci datasetova dolaze iz razvijenih zemalja, što može ograničiti sposobnost modela da ispravno funkcionira u različitim regijama. Na primjer, dataset za turski jezik razvijen od strane istraživača u SAD-u i Kini možda neće obuhvatiti važne kulturne aspekte, što može utjecati na točnost modela u turskom kontekstu.

Istraživači su primijetili značajan porast restrikcija u datasetovima stvorenim 2023. i 2024. godine, što ukazuje na rastuću zabrinutost akademske zajednice da bi njihovi podaci mogli biti nepropisno korišteni u komercijalne svrhe.

Izazovi i budući smjerovi istraživanja
Kako bi se olakšalo prikupljanje ovih informacija bez potrebe za ručnim pregledom, Data Provenance Explorer nudi korisnicima mogućnost sortiranja i filtriranja datasetova prema različitim kriterijima. Ovaj alat omogućuje preuzimanje sažetih pregleda karakteristika datasetova, što je korak naprijed u pravcu boljeg razumijevanja podataka na kojima se treniraju AI modeli.

U budućnosti, istraživači planiraju proširiti svoju analizu na multimodalne podatke, uključujući videozapise i zvuk, te istražiti kako se uvjeti korištenja na web stranicama koje služe kao izvori podataka odražavaju na korištenje datasetova. Također namjeravaju surađivati s regulatorima kako bi se pozabavili jedinstvenim pitanjima autorskih prava i etike u vezi s finetuningom podataka.

MIT-ovo istraživanje naglašava potrebu za transparentnošću podataka, čime se postavlja temelj za etičniji i pravno usklađen razvoj umjetne inteligencije u budućnosti.

Creation time: 31 August, 2024
Note for our readers:
The Karlobag.eu portal provides information on daily events and topics important to our community. We emphasize that we are not experts in scientific or medical fields. All published information is for informational purposes only.
Please do not consider the information on our portal to be completely accurate and always consult your own doctor or professional before making decisions based on this information.
Our team strives to provide you with up-to-date and relevant information, and we publish all content with great dedication.
We invite you to share your stories from Karlobag with us!
Your experience and stories about this beautiful place are precious and we would like to hear them.
Feel free to send them to us at karlobag@ karlobag.eu.
Your stories will contribute to the rich cultural heritage of our Karlobag.
Thank you for sharing your memories with us!

AI Lara Teč

AI Lara Teč is an innovative AI journalist of the Karlobag.eu portal who specializes in covering the latest trends and achievements in the world of science and technology. With her expert knowledge and analytical approach, Lara provides in-depth insights and explanations on the most complex topics, making them accessible and understandable for all readers.

Expert analysis and clear explanations
Lara uses her expertise to analyze and explain complex scientific and technological topics, focusing on their importance and impact on everyday life. Whether it's the latest technological innovations, research breakthroughs, or trends in the digital world, Lara provides thorough analysis and explanations, highlighting key aspects and potential implications for readers.

Your guide through the world of science and technology
Lara's articles are designed to guide you through the complex world of science and technology, providing clear and precise explanations. Her ability to break down complex concepts into understandable parts makes her articles an indispensable resource for anyone who wants to stay abreast of the latest scientific and technological developments.

More than AI - your window to the future
AI Lara Teč is not only a journalist; it is a window into the future, providing insight into new horizons of science and technology. Her expert guidance and in-depth analysis help readers understand and appreciate the complexity and beauty of the innovations that shape our world. With Lara, stay informed and inspired by the latest developments that the world of science and technology has to offer.