Novi pristup za poboljšanje procjene nesigurnosti u modelima strojnog učenja: skalabilna metoda za primjenu u zdravstvu i drugim kritičnim područjima

MIT-ovi istraživači razvili su učinkovit način za poboljšanje procjena nesigurnosti u strojnome učenju, omogućujući točnije i brže rezultate u primjenama poput zdravstva. Ova metoda pomaže korisnicima u donošenju informiranih odluka temeljenih na pouzdanosti modela.

Novi pristup za poboljšanje procjene nesigurnosti u modelima strojnog učenja: skalabilna metoda za primjenu u zdravstvu i drugim kritičnim područjima
Photo by: Domagoj Skledar/ arhiva (vlastita)

Današnja istraživanja u području strojnog učenja često se usredotočuju na procjenu nesigurnosti kako bi korisnici mogli bolje razumjeti koliko su odluke modela pouzdane. Ova procjena posebno je važna u situacijama gdje su ulozi visoki, poput prepoznavanja bolesti na medicinskim slikama ili filtriranja prijava za posao.

No, procjene nesigurnosti su korisne samo ako su točne. Ako model tvrdi da je 49 posto siguran da medicinska slika prikazuje pleuralni izljev, tada bi u 49 posto slučajeva taj model trebao biti u pravu.

Istraživači s MIT-a razvili su novi pristup za poboljšanje procjena nesigurnosti u modelima strojnog učenja. Njihova metoda generira preciznije procjene nesigurnosti u usporedbi s drugim tehnikama i to čini na učinkovitiji način.

Osim toga, ova tehnika je skalabilna i može se primijeniti na velike modele dubokog učenja koji se sve više koriste u zdravstvu i drugim situacijama gdje je sigurnost od ključne važnosti.

Ova tehnika može pružiti krajnjim korisnicima, od kojih mnogi nemaju stručnost u strojnome učenju, bolje informacije za procjenu pouzdanosti modela i odlučivanje o njegovoj primjeni u određenim zadacima.

Kvantificiranje nesigurnosti
Metode kvantificiranja nesigurnosti često zahtijevaju složene statističke izračune koji se teško skaliraju na modele strojnog učenja s milijunima parametara. Također, ove metode često zahtijevaju pretpostavke o modelu i podacima korištenim za njegovo treniranje.

MIT-ovi istraživači pristupili su ovom problemu na drugačiji način. Koristili su princip minimalne duljine opisa (MDL), koji ne zahtijeva pretpostavke koje mogu ograničiti točnost drugih metoda. MDL se koristi za bolje kvantificiranje i kalibriranje nesigurnosti za testne točke koje model treba označiti.

Tehnika koju su razvili istraživači, poznata kao IF-COMP, čini MDL dovoljno brzim za upotrebu s velikim modelima dubokog učenja koji se primjenjuju u mnogim stvarnim okruženjima.

MDL uključuje razmatranje svih mogućih oznaka koje model može dati za određenu testnu točku. Ako postoji mnogo alternativnih oznaka za tu točku koje dobro odgovaraju, povjerenje modela u odabranu oznaku treba proporcionalno smanjiti.

„Jedan način razumijevanja koliko je model siguran jest da mu se daju neke kontrafaktične informacije i da se vidi koliko je spreman promijeniti svoje uvjerenje“, kaže Nathan Ng, glavni autor studije i doktorand na Sveučilištu u Torontu koji je ujedno i gostujući student na MIT-u.

Na primjer, razmotrimo model koji tvrdi da medicinska slika prikazuje pleuralni izljev. Ako istraživači kažu modelu da ta slika prikazuje edem, a model je spreman promijeniti svoje uvjerenje, tada bi model trebao biti manje siguran u svoju izvornu odluku.

S MDL-om, ako je model siguran kad označava podatkovnu točku, trebao bi koristiti vrlo kratak kod za opis te točke. Ako nije siguran jer točka može imati mnogo drugih oznaka, koristi duži kod za obuhvaćanje tih mogućnosti.

Količina koda korištena za označavanje podatkovne točke poznata je kao stohastička složenost podataka. Ako istraživači pitaju model koliko je spreman promijeniti svoje uvjerenje o podatkovnoj točki s obzirom na suprotne dokaze, stohastička složenost podataka bi se trebala smanjiti ako je model siguran.

Ali testiranje svake podatkovne točke korištenjem MDL-a zahtijevalo bi ogromnu količinu računalne snage.

Ubrzavanje procesa
S IF-COMP-om, istraživači su razvili tehniku aproksimacije koja može točno procijeniti stohastičku složenost podataka koristeći posebnu funkciju, poznatu kao funkcija utjecaja. Također su koristili statističku tehniku nazvanu temperaturno skaliranje, koja poboljšava kalibraciju izlaza modela. Ova kombinacija funkcija utjecaja i temperaturnog skaliranja omogućuje visokokvalitetne aproksimacije stohastičke složenosti podataka.

Na kraju, IF-COMP može učinkovito proizvesti dobro kalibrirane procjene nesigurnosti koje odražavaju stvarno povjerenje modela. Tehnika također može utvrditi je li model pogrešno označio određene podatkovne točke ili otkriti koje su podatkovne točke izvanredne.

Istraživači su testirali svoj sustav na ova tri zadatka i otkrili da je bio brži i točniji od drugih metoda.

„Zaista je važno imati neku sigurnost da je model dobro kalibriran, a sve je veća potreba za otkrivanjem kada određena predikcija nije sasvim točna. Alati za reviziju postaju sve potrebniji u problemima strojnog učenja kako koristimo velike količine neprovjerenih podataka za izradu modela koji će se primjenjivati na probleme s kojima se suočavaju ljudi“, kaže Marzyeh Ghassemi, viša autorica studije.

IF-COMP je model-agnostičan, što znači da može pružiti točne procjene nesigurnosti za mnoge vrste modela strojnog učenja. To bi mu moglo omogućiti širu primjenu u stvarnim okruženjima, što bi na kraju pomoglo više praktičara da donose bolje odluke.

„Ljudi trebaju razumjeti da su ovi sustavi vrlo pogrešivi i da mogu donositi zaključke na temelju nedovoljnih podataka. Model može izgledati kao da je vrlo siguran, ali postoji mnogo različitih stvari u koje je spreman vjerovati s obzirom na suprotne dokaze“, kaže Ng.

U budućnosti, istraživači namjeravaju primijeniti svoj pristup na velike jezične modele i istražiti druge potencijalne primjene principa minimalne duljine opisa.

Izvor: Massachusetts Institute of Technology

Heure de création: 17 juillet, 2024
Note pour nos lecteurs :
Le portail Karlobag.eu fournit des informations sur les événements quotidiens et les sujets importants pour notre communauté...
Nous vous invitons à partager vos histoires de Karlobag avec nous !...

AI Lara Teč

AI Lara Teč est une journaliste AI innovante du site Karlobag.eu qui s'est spécialisée dans la couverture des dernières tendances et réalisations dans le monde de la science et de la technologie. Grâce à son expertise et son approche analytique, Lara fournit des aperçus profonds et des explications sur les sujets les plus complexes, les rendant accessibles et compréhensibles pour tous les lecteurs.

Analyse experte et explications claires
Lara utilise son expertise pour analyser et expliquer des sujets scientifiques et technologiques complexes, en se concentrant sur leur importance et leur impact sur la vie quotidienne. Que ce soit sur les dernières innovations technologiques, les percées dans la recherche, ou les tendances du monde numérique, Lara offre des analyses approfondies et des explications, mettant en avant les aspects clés et les implications potentielles pour les lecteurs.

Votre guide à travers le monde de la science et de la technologie
Les articles de Lara sont conçus pour vous guider à travers le monde complexe de la science et de la technologie, fournissant des explications claires et précises. Sa capacité à décomposer des concepts complexes en éléments compréhensibles fait de ses articles une ressource incontournable pour tous ceux qui souhaitent se tenir au courant des dernières réalisations scientifiques et technologiques.

Plus qu'une IA - votre fenêtre vers l'avenir
AI Lara Teč n'est pas seulement une journaliste ; elle est une fenêtre sur l'avenir, offrant un aperçu des nouveaux horizons de la science et de la technologie. Son accompagnement d'expert et son analyse approfondie aident les lecteurs à comprendre et à apprécier la complexité et la beauté des innovations qui façonnent notre monde. Avec Lara, restez informés et inspirés par les dernières réalisations que le monde de la science et de la technologie a à offrir.