Postavke privatnosti

MIT upozorava: klasični intervali pouzdanosti mogu zavarati u prostornim analizama strojnog učenja

Istraživači s MIT-a upozoravaju da uobičajene statističke metode u prostornim analizama često stvaraju lažan dojam pouzdanosti. Novi znanstveni pristup omogućuje točnije intervale pouzdanosti pri procjeni povezanosti varijabli u okolišnim, zdravstvenim i ekonomskim istraživanjima.

MIT upozorava: klasični intervali pouzdanosti mogu zavarati u prostornim analizama strojnog učenja
Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

U istraživanjima koja se oslanjaju na podatke s karata i mjernih postaja često se podrazumijeva da je “neizvjesnost riješena” čim računalni model dobro pogađa vrijednosti koje treba predvidjeti. No u stvarnim analizama znanstvenike i donositelje odluka najčešće ne zanima samo prognoza, nego i pitanje odnosa: je li određena izloženost povezana s ishodom, u kojem smjeru, i kolika je jačina učinka. Upravo tu – u procjeni povezanosti varijabli na prostoru – tim istraživača s MIT-a pokazao je da se uobičajene metode za izračun intervala pouzdanosti mogu ozbiljno slomiti u prostornim postavkama te proizvesti intervale koji izgledaju uvjerljivo, ali su pogrešni.


Zamislimo scenarij iz javnog zdravstva: znanstvenik za okoliš u jednoj županiji želi procijeniti je li izloženost onečišćenju zraka povezana s nižim porođajnim težinama. U eri velikih skupova podataka, prirodan je korak istrenirati strojno-učenjski model koji hvata složene, nelinearne odnose – jer takvi modeli često briljiraju u predikciji. Problem nastaje kad se od modela zatraži nešto drugo: ne “koliko će beba težiti”, nego “kolika je povezanost između izloženosti i porođajne težine” te s kolikom sigurnošću to možemo reći.


Standardne metode strojnog učenja mogu isporučiti procjene i, ponekad, neizvjesnost za samu predikciju. No kad je cilj utvrditi povezanost između varijable (npr. fine čestice u zraku) i ishoda (npr. porođajna težina), istraživači se oslanjaju na intervale pouzdanosti: raspon vrijednosti za koji se očekuje da s određenom vjerojatnošću “pokriva” stvarni učinak. U prostornim problemima – gdje se podaci razlikuju ovisno o lokaciji – MIT-ov tim upozorava da taj raspon može biti potpuno pogrešan, i to na način koji korisnika navodi na krivi zaključak: metoda može tvrditi “visoko povjerenje” dok je procjena promašila stvarnu vrijednost.


Zašto “95% pouzdano” ponekad ne vrijedi


Prostorna analiza povezanosti bavi se time kako su varijabla i ishod povezani na geografskom području. Primjer može biti odnos pokrova krošanja drveća i nadmorske visine u SAD-u, ili veza između oborina i prinosa neke kulture. Istraživač pritom često ima “izvorne” podatke prikupljene na određenim lokacijama, a želi procijeniti odnos na drugoj lokaciji gdje mjerenja ne postoje ili su rijetka. U idealnom slučaju, model daje procjenu i interval koji realno izražava neizvjesnost.


U praksi, upozoravaju autori, često se događa suprotno: metoda može tvrditi da je, primjerice, 95 posto sigurna da je interval “uhvatio” pravi odnos, dok stvarna vrijednost uopće nije unutar tog raspona. Drugim riječima, interval pouzdanosti izgleda autoritativno, a zapravo je – pogrešan. Takvi “lažno sigurni” intervali posebno su rizični kada se rezultati koriste za politike zaštite okoliša, javnozdravstvene preporuke ili procjene ekonomskih učinaka na terenu, jer brojke mogu stvoriti dojam čvrstog dokaza tamo gdje ga nema.


Ključni uzrok je u pretpostavkama na kojima počivaju klasični postupci izgradnje intervala. U statistici pretpostavke funkcioniraju kao pravila igre: ako vrijede, zaključci su valjani; ako ne vrijede, brojke mogu zavesti. U prostornim podacima neke od najčešćih pretpostavki pucaju na više mjesta.


Tri pretpostavke koje se lome u prostornim podacima


1) i.i.d. pretpostavka (nezavisno i jednako distribuirano)
Mnoge metode polaze od ideje da su opažanja međusobno nezavisna i iz “iste” distribucije. U prostornom svijetu to često nije točno. Primjer koji se često navodi je raspored mjernih postaja: lokacije senzora za kvalitetu zraka nisu nasumične, nego se biraju s obzirom na infrastrukturu, gustoću stanovništva, industriju, promet i postojeću mrežu mjerenja. To znači da uključivanje jedne lokacije u podatke itekako utječe na to koje su druge lokacije zastupljene.


2) pretpostavka savršeno ispravnog modela
Dio postupaka za intervale pouzdanosti implicitno pretpostavlja da je model “točan”. No u realnim primjenama modeli su aproksimacije: propuštaju varijable, pojednostavljuju procese i pogrešno opisuju šum. Kad je model promašen, intervali koji se oslanjaju na njegovu ispravnost mogu biti nerealno uski i samouvjereni.


3) sličnost izvornih i ciljnih podataka
U prostornim problemima često postoji razlika između podataka na kojima je model naučen i mjesta na kojem se želi zaključivati. Primjer: model se trenira na urbanim mjerenjima onečišćenja (jer su senzori češći u gradovima), a zatim se koristi za procjenu odnosa u ruralnom području bez postaja. Urbanizacija, promet i industrija mijenjaju karakteristike zraka, pa je “ciljno” područje sistematski drugačije. Takav pomak distribucije može uvesti pristranost u procjenu povezanosti – i poništiti nominalnu pouzdanost intervala.


U kombinaciji, te tri pukotine stvaraju prostor za ozbiljan problem: model može promašiti učinak, a interval se i dalje “ponašati” kao da sve štima. Za novinare i javne institucije to je posebno osjetljivo, jer se u javnoj komunikaciji intervali pouzdanosti često prevode u tvrdnje poput “znanstveno dokazano” ili “s velikom sigurnošću”, bez uvida u to koliko su pretpostavke uopće zadovoljene.


“Glatkoća” kao realnija pretpostavka


Umjesto da inzistiraju na i.i.d.-u i na preklapanju izvornih i ciljnih lokacija, autori uvode pretpostavku koja je u mnogim prostornim procesima intuitivnija: da se podaci mijenjaju glatko kroz prostor. U matematičkom jeziku, to se opisuje Lipschitzovim uvjetom – idejom da promjena u prostoru ne može proizvesti proizvoljno velik skok u vrijednosti, nego da postoji gornja granica “koliko brzo” se odnos može mijenjati.


Za fine čestice u zraku, primjer je gotovo opipljiv: ne očekujemo da će razina onečišćenja na jednom gradskom bloku biti drastično drugačija nego na sljedećem gradskom bloku. Umjesto skokova, češća je slika postupnog opadanja kako se udaljavamo od izvora emisija. U takvim uvjetima glatkoća je pretpostavka bliža onome što se stvarno događa u okolišu nego i.i.d. “idealizacija”.


Na toj osnovi, MIT-ov tim predlaže postupak koji izravno računa na mogućnost pristranosti uzrokovane nenasumičnim odabirom lokacija i pomakom distribucije. Cilj nije samo dobiti procjenu povezanosti, nego izgraditi interval pouzdanosti koji i dalje ima smisleno pokriće (coverage) – odnosno, koji doista, onoliko često koliko tvrdi, sadrži pravu vrijednost parametra interesa.


Što je novo u pristupu i zašto je važno


Prema opisu u radu, nova metoda konstruira valjane frekventističke intervale pouzdanosti za prostorne povezanosti uz minimalne dodatne pretpostavke: određeni oblik prostorne glatkoće te homoskedastičnu Gaussianovu pogrešku. Ključno je i ono što metoda ne zahtijeva: autori naglašavaju da se ne oslanjaju na potpunu ispravnost modela niti na “preklapanje kovarijata” između lokacija na kojima se uči i lokacija na kojima se procjenjuje učinak.


U praksi, to znači da se metoda može koristiti i kada su mjerenja natrpana u gradovima, a zaključivanje se traži za periferiju ili ruralna područja – scenarij koji se često pojavljuje u epidemiologiji i okolišnim studijama. Kada je razina šuma poznata, autori navode da intervali mogu biti valjani i u konačnim uzorcima; kada šum nije poznat, nude postupak procjene varijance koji je asimptotski konzistentan.


U usporedbama na simulacijama i na stvarnim podacima, autori izvještavaju da je njihov postupak jedini koji dosljedno isporučuje pouzdane intervale u situacijama gdje standardni pristupi mogu potpuno podbaciti. Drugim riječima, nije riječ o kozmetičkom poboljšanju, nego o pokušaju da se “popravi instrument” koji se često koristi za donošenje zaključaka o odnosima varijabli na prostoru.


Od prognoze prema objašnjenju: što to znači za okoliš, ekonomiju i medicinu


U javnosti se strojno učenje često doživljava kao alat za “točnije prognoze”. No u znanosti i u politici prognoza je tek početak. Ako zdravstvo procjenjuje gdje ulagati u prevenciju, ako grad planira prometne politike, ili ako se procjenjuje učinak pošumljavanja na mikroklimu, pitanje je: koliko je jaka povezanost i koliko smo sigurni u tu procjenu?


Tu se uloga intervala pouzdanosti pretvara u praktičan filter povjerenja. Ako interval lažno sugerira visoku sigurnost, odluke se mogu temeljiti na pogrešnoj procjeni učinka, a to može značiti preusmjeravanje resursa ili pogrešne intervencije. S druge strane, interval koji realno odražava neizvjesnost omogućuje racionalnije planiranje: i kada je učinak prisutan, i kada je mali, i kada podaci još nisu dovoljni da bi se zaključivalo s povjerenjem.


Autori svoj rad smještaju u širok raspon primjena: od okolišnih znanosti (zagađenje, oborine, upravljanje šumama) preko epidemiologije, do ekonomskih analiza koje se oslanjaju na prostorne podatke. U svim tim područjima postoji zajednička potreba: razlikovati “model koji dobro predviđa” od “modela kojem možemo vjerovati kada govori o odnosima”.


NeurIPS 2025: od teorije do zajednice


Rad je predstavljen na konferenciji NeurIPS 2025, jednoj od najutjecajnijih svjetskih konferencija za strojno učenje i umjetnu inteligenciju. Na službenoj stranici programa navodi se poster-prezentacija pod naslovom “Smooth Sailing: Lipschitz-Driven Uncertainty Quantification for Spatial Associations”, s autorima Davidom Burtom, Renatom Berlinghierijem, Stephenom Batesom i Tamarom Broderick, održana 3. prosinca 2025. u sklopu konferencijskog programa.


Istodobno, verzija rada dostupna je i kao preprint na arXivu, uz naznaku da je riječ o NeurIPS 2025 referenci te da su prve verzije zaprimljene 9. veljače 2025., uz kasnije revizije. Autori su objavili i referentnu implementaciju koda, što je u metodološkim radovima ključno kako bi se rezultati mogli reproducirati i provjeriti na drugim skupovima podataka.


Više informacija o radu i povezanim materijalima dostupno je na: arXiv stranici rada, službenoj NeurIPS 2025 kartici postera i repozitoriju koda.

Kreirano: petak, 12. prosinca, 2025.

Pronađite smještaj u blizini

Redakcija za znanost i tehnologiju

Naša Redakcija za znanost i tehnologiju nastala je iz dugogodišnje strasti prema istraživanju, tumačenju i približavanju složenih tema običnim čitateljima. U njoj pišu zaposlenici i volonteri koji već desetljećima prate razvoj znanosti i tehnoloških inovacija, od laboratorijskih otkrića do rješenja koja mijenjaju svakodnevni život. Iako pišemo u množini, iza svakog teksta stoji stvarna osoba s dugim uredničkim i novinarskim iskustvom te dubokim poštovanjem prema činjenicama i provjerljivim informacijama.

Naša redakcija temelji svoj rad na uvjerenju da je znanost najjača kada je dostupna svima. Zato težimo jasnoći, preciznosti i razumljivosti, ali bez pojednostavljivanja koje bi narušilo kvalitetu sadržaja. Često provodimo sate proučavajući istraživanja, tehničke dokumente i stručne izvore kako bismo svaku temu predstavili čitatelju na način koji ga neće opteretiti, nego zainteresirati. U svakom tekstu nastojimo povezati znanstvene spoznaje s realnim životom, pokazujući kako ideje iz istraživačkih centara, sveučilišta i tehnoloških laboratorija oblikuju svijet oko nas.

Dugogodišnje iskustvo u novinarstvu omogućuje nam da prepoznamo što je za čitatelja zaista važno, bilo da se radi o napretku u umjetnoj inteligenciji, medicinskim otkrićima, energetskim rješenjima, svemirskim misijama ili uređajima koji ulaze u našu svakodnevicu prije nego što stignemo uopće zamisliti njihove mogućnosti. Naš pogled na tehnologiju nije isključivo tehnički; zanimaju nas i ljudske priče koje stoje iza velikih pomaka – istraživači koji godinama privode kraju projekte, inženjeri koji pretvaraju ideje u funkcionalne sustave, te vizionari koji guraju granice mogućega.

U radu nas vodi i osjećaj odgovornosti. Želimo da čitatelj može imati povjerenje u informacije koje donosimo, pa provjeravamo izvore, uspoređujemo podatke i ne žurimo s objavom ako nešto nije sasvim jasno. Povjerenje gradimo sporije nego što se piše vijest, ali vjerujemo da je jedino takvo novinarstvo dugoročno vrijedno.

Za nas je tehnologija više od uređaja, a znanost više od teorije. To su područja koja pokreću napredak, oblikuju društvo i pružaju nove mogućnosti svima koji žele razumjeti kako svijet funkcionira danas i kamo ide sutra. Upravo zato u našoj redakciji pristupamo svakoj temi s ozbiljnošću, ali i s dozom znatiželje, jer upravo znatiželja otvara vrata najboljim tekstovima.

Naša je misija približiti čitateljima svijet koji se mijenja brže nego ikada prije, uz uvjerenje da kvalitetno novinarstvo može biti most između stručnjaka, inovatora i svih onih koji žele razumjeti što se događa iza naslova. U tome vidimo svoj pravi zadatak: pretvoriti kompleksno u razumljivo, udaljeno u blisko, a nepoznato u inspirativno.

NAPOMENA ZA NAŠE ČITATELJE
Karlobag.eu pruža vijesti, analize i informacije o globalnim događanjima i temama od interesa za čitatelje širom svijeta. Sve objavljene informacije služe isključivo u informativne svrhe.
Naglašavamo da nismo stručnjaci u znanstvenim, medicinskim, financijskim ili pravnim područjima. Stoga, prije donošenja bilo kakvih odluka temeljenih na informacijama s našeg portala, preporučujemo da se konzultirate s kvalificiranim stručnjacima.
Karlobag.eu može sadržavati poveznice na vanjske stranice trećih strana, uključujući affiliate linkove i sponzorirane sadržaje. Ako kupite proizvod ili uslugu putem ovih poveznica, možemo ostvariti proviziju. Nemamo kontrolu nad sadržajem ili politikama tih stranica te ne snosimo odgovornost za njihovu točnost, dostupnost ili bilo kakve transakcije koje obavite putem njih.
Ako objavljujemo informacije o događajima ili prodaji ulaznica, napominjemo da mi ne prodajemo ulaznice niti izravno niti preko posrednika. Naš portal isključivo informira čitatelje o događajima i mogućnostima kupnje putem vanjskih prodajnih platformi. Povezujemo čitatelje s partnerima koji nude usluge prodaje ulaznica, ali ne jamčimo njihovu dostupnost, cijene ili uvjete kupnje. Sve informacije o ulaznicama preuzete su od trećih strana i mogu biti podložne promjenama bez prethodne najave. Preporučujemo da prije bilo kakve kupnje temeljito provjerite uvjete prodaje kod odabranog partnera, budući da portal Karlobag.eu ne preuzima odgovornost za transakcije ili uvjete prodaje ulaznica.
Sve informacije na našem portalu podložne su promjenama bez prethodne najave. Korištenjem ovog portala prihvaćate da čitate sadržaj na vlastitu odgovornost.