Czy mózg może uczyć się szybciej na rzadkich zdarzeniach niż na powtórzeniach? Badanie UCSF zmienia spojrzenie na uczenie asocjacyjne
Od ponad stulecia obraz psa Pawłowa, który po dźwięku dzwonka oczekuje jedzenia, służył jako niemal podręcznikowy dowód, że związek między bodźcem a nagrodą buduje się przez powtarzanie. Im więcej razy dźwięk poprzedzał jedzenie, zakładano, tym silniejsze i szybsze jest uczenie się. Jednak nowe badanie naukowców z University of California w San Francisco (UCSF) proponuje inny — dla wielu prowokacyjny — wniosek: sama liczba powtórzeń nie jest decydująca, kluczowe jest to, ile czasu mija między nagrodami.
Chodzi o pracę opublikowaną 12 lutego 2026 r. w czasopiśmie
Nature Neuroscience, w której autorzy twierdzą, że uczenie asocjacyjne jest silnie determinowane odstępem między wynikami, czyli między nagrodami. Gdy nagrody następują zbyt blisko siebie, mózg „wydobywa” mniej z każdego pojedynczego epizodu. Gdy odstęp jest większy, uczenie się na próbę staje się bardziej efektywne, nawet jeśli łącznie prób jest mniej.
Od „trening czyni mistrza” do „timing jest wszystkim”
W klasycznym ujęciu uczenia asocjacyjnego zwierzę (lub człowiek) dzięki powtarzaniu rozpoznaje, że określony sygnał w otoczeniu zapowiada wynik. We współczesnej neuronauce często opisuje się to także poprzez rolę dopaminy: na początku dopamina uwalnia się silniej, gdy pojawia się nagroda, a z czasem ten sygnał „przenosi się” na bodziec zapowiadający nagrodę. Takie przesunięcie reakcji dopaminergicznej interpretuje się jako mechanizm, dzięki któremu mózg buduje przewidywania, utrwala użyteczne połączenia i osłabia te, które się nie potwierdzają.
Zespół UCSF, kierowany przez neurologa Vijai Mohana K. Namboodiriego, chciał sprawdzić, na ile ten proces rzeczywiście jest związany z liczbą prób. W eksperymentach na myszach zastosowali proste zadanie: dźwięk (bodziec) zapowiada wodę dosładzaną cukrem (nagrodę). Zamiast zmieniać „trudność” zadania lub rodzaj nagrody, zmieniali to, co często uznaje się za oczywiste: odstęp między próbami.
Eksperyment na myszach: mniej nagród, a uczenie takie samo
W pierwszej serii doświadczeń badacze rozplanowali próby tak, że w jednej grupie odstęp był krótki, około 30–60 sekund, a w drugiej znacznie dłuższy — od pięciu do dziesięciu minut lub więcej. Powstała sytuacja, która według starej logiki powinna wyraźnie faworyzować „gęsty” harmonogram: myszy z krótkimi odstępami otrzymywały znacznie więcej nagród w tym samym przedziale czasu, bo mogły przejść przez więcej prób.
Wynik poszedł jednak w przeciwnym kierunku. Grupy, które miały istotnie mniej prób, ale nagrody były rozłożone w czasie, uczyły się równie szybko w sensie całkowitego czasu potrzebnego, by pokazać wyuczone zachowanie. Innymi słowy, więcej prób nie oznaczało proporcjonalnie szybszego uczenia się. Zmieniała się liczba prób potrzebna, by „uchwycić” asocjację: przy dłuższych odstępach myszy potrzebowały znacznie mniej powtórzeń, aby zacząć reagować na dźwięk oczekiwaniem nagrody.
W opublikowanych danych autorzy podają, że na przykład myszy z odstępem 600 sekund między próbami uczyły się średnio w jednocyfrowej liczbie prób, podczas gdy grupie z odstępem 60 sekund potrzeba było wielokrotnie więcej prób, aby osiągnąć ten sam wynik. Choć „rzadsze” próby wyglądały na wolniejszą drogę, łączny czas do pojawienia się wyuczonego zachowania był porównywalny.
Dopamina jako „miernik” czasu między nagrodami
Aby zrozumieć, co dzieje się w mózgu, badacze śledzili aktywność dopaminergiczną podczas uczenia się. Dopamina w tym kontekście bywa opisywana jako sygnał pomagający mózgowi aktualizować oczekiwania: gdy dzieje się coś lepszego lub gorszego, niż oczekiwano, odpowiedź dopaminowa może „pogrubić” lub „odchudzić” połączenie między bodźcem a wynikiem.
W modelu UCSF dopamina jednak nie działa wyłącznie jako reakcja na zaskoczenie, lecz także jako część mechanizmu uwzględniającego odstęp czasowy między nagrodami. Gdy nagrody były rzadsze, odpowiedź dopaminowa na bodziec pojawiała się wcześniej, po mniejszej liczbie powtórzeń — jakby mózg szybciej „wnioskował”, że sygnał rzeczywiście niesie informację. Gdy nagrody były częste i skumulowane, mózg uczył się mniej z każdego epizodu, więc potrzeba było więcej powtórzeń, aby sygnał dopaminowy stabilnie przeniósł się na bodziec.
Autorzy podsumowują to tezą, że uczenie asocjacyjne jest mniej „praktyka czyni mistrza”, a bardziej „timing jest wszystkim”: efektywność uczenia się na próbę rośnie, gdy odstęp między nagrodami jest większy.
Nie tylko odstęp, lecz także rzadkość nagrody
Ciekawa część badania dotyczyła scenariusza, w którym bodziec występuje regularnie, ale nagroda pojawia się rzadko. W jednym wariancie badacze odtwarzali dźwięk w odstępach około 60 sekund, ale wodę dosładzaną cukrem podawali tylko w około 10% prób. Taki projekt naśladuje sytuacje z życia, w których określony sygnał jest obecny często, ale „wypłata” następuje sporadycznie i nieprzewidywalnie.
W takim przypadku myszy zaczęły uwalniać dopaminę po dźwięku przy stosunkowo niewielkiej liczbie otrzymanych nagród, nawet gdy dźwięk nie był następnie wzmocniony nagrodą. To ważne, bo sugeruje, że mózg może budować silne oczekiwania i motywacje na podstawie rzadkich, ale „informacyjnych” wyników. Taki mechanizm mógłby wyjaśniać, dlaczego niektóre formy zachowania stają się uporczywe i trudno je wygasić, zwłaszcza gdy nagrody są sporadyczne.
Dlaczego „wkuwanie” często zawodzi: możliwy związek z nauką szkolną
Choć badanie dotyczy podstawowych mechanizmów uczenia się w mózgach myszy, autorzy i komentatorzy wskazują na potencjalnie szersze implikacje. Jedna jest intuicyjna: gdy informacje „upychane” są w krótkim czasie, jak podczas intensywnej nauki w noc przed egzaminem, każdy pojedynczy epizod powtórki może mieć mniejszy efekt. Z kolei nauka rozłożona w czasie daje mózgowi odstęp, który — według tej teorii — zwiększa ilość „uczenia się na zdarzenie”.
W praktyce jest to bliskie temu, co psychologia edukacyjna od dawna rozpoznaje jako efekt rozłożonej nauki. Praca UCSF próbuje jednak zaproponować bardziej precyzyjny opis neurobiologiczny i matematyczny: nie chodzi tylko o to, że rozkładanie jest „lepsze”, lecz że tempo uczenia się może skalować się wraz z czasem między nagrodami lub wynikami, przy czym całkowity czas potrzebny, by czegoś się nauczyć, pozostaje w przybliżeniu stabilny, a liczba powtórzeń się zmienia.
Implikacje dla uzależnień: sporadyczne „wyzwalacze” i trwałe nawyki
Jeszcze bardziej wrażliwe konsekwencje dotyczą zachowań uzależnieniowych. Palenie często bywa przykładem nawyku obejmującego liczne sygnały w otoczeniu: zapach dymu, widok paczki, określone miejsce lub towarzystwo. Nagroda (nikotyna i towarzysząca odpowiedź dopaminowa) nie musi pojawiać się w idealnie regularnych odstępach, lecz w rzeczywistości może być sporadyczna, zależna od sytuacji i dostępności. Jeśli mózg rzeczywiście uczy się silniej z rzadkich, rozłożonych lub nieprzewidywalnych nagród, mogłoby to wzmacniać związek między takimi sygnałami a głodem.
W wyjaśnieniu UCSF pojawia się też, dlaczego terapie dostarczające ciągłą, stabilną dawkę (jak plastry nikotynowe) mogą pomagać niektórym osobom. Jeśli dopaminowy „podpis” nagrody jest stale obecny i mniej związany z konkretnymi bodźcami, wtedy asocjacja między sygnałami a nagrodą zostaje przerwana lub osłabiona. To mogłoby — przynajmniej w teorii — zmniejszyć siłę wyzwalaczy, które inaczej pobudzają chęć sięgnięcia po papierosa.
Taka interpretacja nie oznacza, że rozwiązanie jest uniwersalne ani że uzależnienie można sprowadzić do jednego mechanizmu. Daje jednak dodatkowe ramy do zrozumienia, dlaczego sporadyczne nagradzanie i wyzwalacze z otoczenia mogą być tak silne oraz dlaczego strategie leczenia często próbują zmienić relację między sygnałami, oczekiwaniami i wynikami.
Co to oznacza dla sztucznej inteligencji: szybsza nauka z mniejszej liczby przykładów?
Autorzy pracy stawiają też pytanie, czy taką zasadę można przenieść do systemów sztucznej inteligencji. Wiele współczesnych algorytmów uczenia, zwłaszcza tych opartych na wariantach uczenia ze wzmocnieniem, aktualizuje swoje oszacowania po ogromnej liczbie interakcji. To podejście „trial-by-trial” przypomina starsze założenie o uczeniu asocjacyjnym: każdy nowy epizod przynosi niewielką korektę, a postęp buduje się poprzez miliardy powtórzeń.
Jeśli mózg może zwiększać tempo uczenia się na epizod, gdy wyniki są rzadsze lub rozłożone w czasie, sugeruje to, że modele mogłyby być bardziej efektywne, gdyby w samą logikę uczenia wbudowały temporalną strukturę doświadczenia. W takim scenariuszu system wyciągałby więcej informacji z pojedynczych, „droższych” zdarzeń, zamiast polegać na nieskończonym powtarzaniu z minimalnymi przesunięciami. Badacze podkreślają przy tym, że to kierunek na przyszłość, a nie gotowa recepta: przenoszenie biologicznych zasad do modeli obliczeniowych wymaga ostrożności, testów i jasnych granic zastosowania.
Szersze pytanie: na ile stara teoria była naprawdę pełna?
Warto podkreślić, że badanie UCSF nie twierdzi, iż powtarzanie nie jest ważne. W wielu umiejętnościach powtarzanie buduje automatyzm, precyzję i wytrzymałość. Kwestionowana jest prosta równość „więcej prób = szybsza nauka” w obszarze podstawowego uczenia asocjacyjnego, zwłaszcza gdy chodzi o łączenie bodźców i wyników w stosunkowo krótkich zadaniach laboratoryjnych.
Praca w
Nature Neuroscience wprowadza ideę, że mózg śledzi czasową „ekonomię” nagród: gdy nagrody się kumulują, każda ma mniejszą wartość informacyjną o przyczynie; gdy nagrody są rozłożone, mózg traktuje każdy epizod jako ważniejszy dla wnioskowania, co w otoczeniu rzeczywiście przewiduje wynik. Autorzy testowali tę zależność w różnych interwałach i pokazali, że liczba prób do nauczenia może zmieniać się w przybliżeniu proporcjonalnie do zmiany odstępu, podczas gdy całkowity czas do nauczenia pozostaje podobny.
Dodatkowo wyniki w pracy rozszerzono na uczenie związane z nieprzyjemnymi wynikami, gdzie również widać, że tempo uczenia może skalować się wraz z czasem między wynikami. To sugeruje, że zasada nie jest ograniczona tylko do „słodkiej” nagrody, lecz może mieć szerszą zastosowalność w sposobie, w jaki mózg ustala oczekiwania — niezależnie od tego, czy chodzi o dążenie do nagrody, czy unikanie zagrożenia.
Co jest już jasne, a co pozostaje otwarte
Według dostępnych danych badanie mocno pokazuje, że w warunkach kontrolowanego zadania u myszy odstęp między nagrodami silnie zmienia efektywność uczenia się na próbę, wraz z wyraźnymi zmianami w sygnalizacji dopaminowej. To, co dopiero trzeba wyjaśnić, to jak te reguły przekładają się na złożone sytuacje ludzkie, gdzie „nagroda” może być abstrakcyjna, opóźniona lub społecznie pośredniczona, a bodźce są wielorakie i często niejasne.
Mimo to przekaz, który już teraz narzuca się czytelnikowi, jest praktyczny i łatwy do zrozumienia: nie każde powtórzenie ma tę samą wartość. Jeśli mózg rzeczywiście uczy się więcej, gdy między „wypłatami” istnieje odstęp, wówczas uczenie się, nawyki i terapie być może trzeba postrzegać przez pryzmat rytmu i harmonogramu, a nie tylko przez sumę prób.
Źródła:- UC San Francisco – przegląd badania i kluczowe wypowiedzi autorów ( UCSF )- Nature Neuroscience – artykuł naukowy „Duration between rewards controls the rate of behavioral and dopaminergic learning”, DOI: 10.1038/s41593-026-02206-2 ( Nature Neuroscience (PDF) )- Crossref Crossmark – oficjalne metadane dotyczące daty publikacji online (12 lutego 2026 r.) ( Crossmark )
Czas utworzenia: 2 godzin temu