Kann das Gehirn schneller aus seltenen Ereignissen lernen als durch Wiederholung? Eine UCSF-Studie verändert den Blick auf assoziatives Lernen
Seit mehr als einem Jahrhundert gilt das Bild von Pawlows Hund, der nach dem Klang einer Glocke Futter erwartet, als nahezu schulbuchhaftes Beispiel dafür, dass die Verbindung zwischen Reiz und Belohnung durch Wiederholung aufgebaut wird. Je öfter der Ton dem Futter vorausging, so nahm man an, desto stärker und schneller das Lernen. Doch eine neue Untersuchung von Wissenschaftlern der University of California in San Francisco (UCSF) kommt zu einem anderen – für viele provokanten – Schluss: Nicht die Anzahl der Wiederholungen an sich ist entscheidend, sondern wie viel Zeit zwischen den Belohnungen vergeht.
Es handelt sich um eine Arbeit, die am 12. Februar 2026 in der Zeitschrift
Nature Neuroscience veröffentlicht wurde. Darin argumentieren die Autoren, dass assoziatives Lernen stark vom Abstand zwischen den Ergebnissen, also zwischen den Belohnungen, bestimmt wird. Folgen Belohnungen zu dicht aufeinander, „zieht“ das Gehirn aus jeder einzelnen Episode weniger heraus. Ist der Abstand größer, wird das Lernen pro Versuch effizienter – selbst wenn es insgesamt weniger Versuche gibt.
Von „Übung macht den Meister“ zu „Timing ist alles“
In der klassischen Erklärung des assoziativen Lernens erkennt ein Tier (oder ein Mensch) durch Wiederholung, dass ein bestimmtes Signal in der Umgebung ein Ergebnis ankündigt. In der modernen Neurowissenschaft wird dies häufig auch über die Rolle von Dopamin beschrieben: Zu Beginn wird Dopamin verstärkt freigesetzt, wenn die Belohnung eintrifft, und mit der Zeit „wandert“ dieses Signal auf den Reiz, der die Belohnung ankündigt. Eine solche Verschiebung der dopaminergen Reaktion gilt als Mechanismus, mit dem das Gehirn Vorhersagen aufbaut, nützliche Verbindungen stärkt und jene schwächt, die sich nicht bestätigen.
Das UCSF-Team um den Neurologen Vijai Mohan K. Namboodiri wollte prüfen, wie eng dieser Prozess tatsächlich an die Anzahl der Versuche gebunden ist. In Experimenten mit Mäusen verwendeten sie eine einfache Aufgabe: Ein Ton (Reiz) kündigt mit Zucker gesüßtes Wasser (Belohnung) an. Statt die „Schwierigkeit“ der Aufgabe oder die Art der Belohnung zu verändern, veränderten sie etwas, das oft als selbstverständlich gilt: den Abstand zwischen den Versuchen.
Experiment mit Mäusen: weniger Belohnungen, aber gleiches Lernen
In der ersten Versuchsreihe ordneten die Forscher die Durchgänge so an, dass eine Gruppe einen kurzen Abstand von etwa 30 bis 60 Sekunden hatte, die andere hingegen einen deutlich längeren von fünf bis zehn Minuten oder mehr. Dadurch entstand eine Situation, die nach der alten Logik klar den „dichten“ Zeitplan hätte begünstigen müssen: Mäuse mit kurzen Abständen erhielten im selben Zeitfenster viel mehr Belohnungen, weil sie mehr Versuche durchlaufen konnten.
Das Ergebnis ging jedoch in die entgegengesetzte Richtung. Gruppen mit deutlich weniger Versuchen, deren Belohnungen aber weiter auseinanderlagen, lernten in Bezug auf die insgesamt benötigte Zeit, um das gelernte Verhalten zu zeigen, genauso schnell. Mit anderen Worten: Mehr Versuche bedeuteten nicht proportional schnelleres Lernen. Verändert hat sich die Zahl der Versuche, die nötig war, um die Assoziation „zu erwischen“: Bei längeren Abständen brauchten die Mäuse deutlich weniger Wiederholungen, bis sie auf den Ton mit der Erwartung einer Belohnung reagierten.
In den veröffentlichten Daten geben die Autoren an, dass beispielsweise Mäuse mit einem Abstand von 600 Sekunden zwischen den Versuchen im Durchschnitt in einer einstelligen Zahl von Versuchen lernten, während die Gruppe mit einem Abstand von 60 Sekunden ein Vielfaches an Versuchen benötigte, um dasselbe Ergebnis zu erreichen. Obwohl die „selteneren“ Versuche wie ein langsamerer Weg wirkten, war die Gesamtzeit bis zum Auftreten des gelernten Verhaltens vergleichbar.
Dopamin als „Zeitmesser“ für den Abstand zwischen Belohnungen
Um zu verstehen, was im Gehirn geschah, verfolgten die Forscher die dopaminerge Aktivität während des Lernens. Dopamin wird in diesem Kontext oft als Signal beschrieben, das dem Gehirn hilft, Erwartungen zu aktualisieren: Wenn etwas besser oder schlechter als erwartet eintritt, kann die Dopaminreaktion die Verbindung zwischen Reiz und Ergebnis „verdicken“ oder „ausdünnen“.
Im UCSF-Modell wirkt Dopamin jedoch nicht nur als Reaktion auf Überraschung, sondern auch als Teil eines Mechanismus, der den zeitlichen Abstand zwischen Belohnungen berücksichtigt. Waren Belohnungen seltener, erschien die Dopaminreaktion auf den Reiz früher – nach weniger Wiederholungen –, als würde das Gehirn schneller „schlussfolgern“, dass das Signal tatsächlich Information trägt. Waren Belohnungen häufig und gebündelt, lernte das Gehirn aus jeder Episode weniger, sodass mehr Wiederholungen nötig waren, bis sich das Dopaminsignal stabil auf den Reiz verlagerte.
Die Autoren fassen dies mit der These zusammen, dass assoziatives Lernen weniger „Übung macht den Meister“ und mehr „Timing ist alles“ ist: Die Lerneffizienz pro Versuch steigt, wenn der Abstand zwischen den Belohnungen größer ist.
Nicht nur der Abstand, sondern auch die Seltenheit der Belohnung
Ein interessanter Teil der Studie betraf ein Szenario, in dem der Reiz regelmäßig vorhanden ist, die Belohnung jedoch selten auftritt. In einer Variante spielten die Forscher den Ton in Abständen von etwa 60 Sekunden ab, gaben das mit Zucker gesüßte Wasser aber nur in ungefähr 10% der Versuche. Dieses Design ahmt Situationen aus dem wirklichen Leben nach, in denen ein bestimmtes Signal häufig präsent ist, die „Auszahlung“ jedoch nur gelegentlich und unvorhersehbar erfolgt.
In diesem Fall begannen die Mäuse nach dem Ton Dopamin freizusetzen, obwohl sie nur relativ wenige Belohnungen erhalten hatten – sogar dann, wenn dem Ton keine Belohnung folgte. Das ist wichtig, weil es darauf hindeutet, dass das Gehirn starke Erwartungen und Anreize auf der Grundlage seltener, aber „informativer“ Ergebnisse aufbauen kann. Ein solcher Mechanismus könnte erklären, warum bestimmte Verhaltensformen hartnäckig werden und schwer zu löschen sind, insbesondere wenn Belohnungen intermittierend sind.
Warum „Bulimie-Lernen“ oft scheitert: möglicher Bezug zum schulischen Lernen
Obwohl die Studie grundlegende Lernmechanismen im Mausgehirn untersucht, weisen Autoren und Kommentatoren auf potenziell weitreichendere Implikationen hin. Eine ist intuitiv: Werden Informationen in kurzer Zeit „zusammengedrängt“, wie beim intensiven Lernen in der Nacht vor einer Prüfung, kann jede einzelne Wiederholungsepisode einen geringeren Effekt haben. Umgekehrt verschafft verteiltes Lernen über einen längeren Zeitraum dem Gehirn den zeitlichen Abstand, der nach dieser Theorie die Menge des „Lernens pro Ereignis“ erhöht.
In der Praxis entspricht das dem, was die Bildungspsychologie seit Langem als Effekt des verteilten Lernens kennt. Die UCSF-Arbeit versucht jedoch, eine präzisere neurobiologische und mathematische Beschreibung zu liefern: Es geht nicht nur darum, dass Verteilung „besser“ ist, sondern dass sich die Lernrate mit der Zeit zwischen Belohnungen oder Ergebnissen skalieren lässt, wobei die insgesamt benötigte Zeit, um etwas zu lernen, ungefähr stabil bleibt und die Anzahl der Wiederholungen variiert.
Implikationen für Süchte: intermittierende „Trigger“ und dauerhafte Gewohnheiten
Noch sensiblere Folgen betreffen süchtiges Verhalten. Rauchen ist oft ein Beispiel für eine Gewohnheit, die viele Signale in der Umgebung umfasst: der Geruch von Rauch, der Anblick der Packung, ein bestimmter Ort oder eine bestimmte Gesellschaft. Die Belohnung (Nikotin und die begleitende Dopaminreaktion) muss nicht in perfekt regelmäßigen Intervallen eintreffen, sondern kann in der Realität gelegentlich sein – abhängig von Situation und Verfügbarkeit. Wenn das Gehirn tatsächlich stärker aus seltenen, auseinanderliegenden oder unvorhersehbaren Belohnungen lernt, könnte das die Verbindung zwischen solchen Signalen und Verlangen verstärken.
In der UCSF-Erklärung wird auch erwähnt, warum Therapien, die eine kontinuierliche, stabile Dosis liefern (wie Nikotinpflaster), manchen Menschen helfen könnten. Ist die dopaminerge „Signatur“ der Belohnung ständig präsent und weniger an spezifische Reize gebunden, wird die Assoziation zwischen Signalen und Belohnung unterbrochen oder geschwächt. Dadurch könnte – zumindest theoretisch – die Stärke der Trigger reduziert werden, die sonst den Wunsch nach einer Zigarette auslösen.
Eine solche Interpretation bedeutet nicht, dass die Lösung universell ist oder dass sich Sucht auf einen Mechanismus reduzieren lässt. Sie liefert jedoch einen zusätzlichen Rahmen, um zu verstehen, warum intermittierende Verstärkung und Trigger aus der Umgebung so stark sein können und warum Behandlungsstrategien oft versuchen, die Beziehung zwischen Signalen, Erwartungen und Ergebnissen zu verändern.
Was das für künstliche Intelligenz bedeutet: schnelleres Lernen aus weniger Beispielen?
Die Autoren werfen auch die Frage auf, ob sich ein solches Prinzip auf Systeme künstlicher Intelligenz übertragen lässt. Viele moderne Lernalgorithmen, insbesondere solche, die auf Varianten des bestärkenden Lernens beruhen, aktualisieren ihre Schätzungen nach einer enormen Zahl von Interaktionen. Dieser „Trial-by-trial“-Ansatz erinnert an die ältere Annahme über assoziatives Lernen: Jede neue Episode bringt eine kleine Korrektur, und der Fortschritt entsteht durch Milliarden von Wiederholungen.
Wenn das Gehirn die Lernrate pro Episode erhöhen kann, wenn Ergebnisse seltener oder weiter auseinanderliegen, deutet das darauf hin, dass Modelle effizienter sein könnten, wenn sie die zeitliche Struktur der Erfahrung in die Lernlogik selbst einbauen. In diesem Szenario würde ein System aus einzelnen, „teuren“ Ereignissen mehr Information ziehen, statt sich auf endlose Wiederholung mit minimalen Verschiebungen zu verlassen. Die Forscher betonen dabei, dass dies eine Richtung für zukünftige Arbeit ist und keine fertige Rezeptur: Die Übertragung biologischer Prinzipien in rechnerische Modelle erfordert Vorsicht, Tests und klare Grenzen der Anwendbarkeit.
Die größere Frage: Wie vollständig war die alte Theorie wirklich?
Wichtig ist zu betonen, dass die UCSF-Studie nicht behauptet, Wiederholung sei unwichtig. In vielen Fähigkeiten baut Wiederholung Automatismus, Präzision und Ausdauer auf. In Frage gestellt wird die einfache Gleichung „mehr Versuche = schnelleres Lernen“ im Bereich des grundlegenden assoziativen Lernens, insbesondere beim Verknüpfen von Reizen und Ergebnissen in relativ kurzen Laboraufgaben.
Die Arbeit in
Nature Neuroscience führt die Idee ein, dass das Gehirn die zeitliche „Ökonomie“ von Belohnungen verfolgt: Wenn sich Belohnungen häufen, trägt jede einen geringeren Informationswert über die Ursache; sind Belohnungen auseinandergezogen, behandelt das Gehirn jede Episode als wichtiger für die Schlussfolgerung, was in der Umgebung das Ergebnis tatsächlich vorhersagt. Die Autoren testeten diesen Zusammenhang über verschiedene Intervalle und zeigten, dass sich die Zahl der Versuche bis zum Lernen ungefähr proportional zur Veränderung des Abstands ändern kann, während die Gesamtzeit bis zum Lernen ähnlich bleibt.
Zusätzlich wurden die Ergebnisse in der Arbeit auch auf Lernen im Zusammenhang mit unangenehmen Ergebnissen ausgeweitet, wobei ebenfalls zu sehen ist, dass sich die Lernrate mit der Zeit zwischen den Ergebnissen skalieren kann. Das deutet darauf hin, dass das Prinzip nicht nur auf eine „süße“ Belohnung beschränkt ist, sondern eine breitere Anwendbarkeit darin haben könnte, wie das Gehirn Erwartungen setzt – sei es beim Annähern an eine Belohnung oder beim Vermeiden einer Bedrohung.
Was derzeit klar ist und was offen bleibt
Nach den verfügbaren Daten zeigt die Studie robust, dass unter den Bedingungen einer kontrollierten Aufgabe bei Mäusen der Abstand zwischen Belohnungen die Lerneffizienz pro Versuch stark verändert, mit klaren Veränderungen in der dopaminergen Signalgebung. Was noch geklärt werden muss, ist, wie sich diese Regeln auf komplexe menschliche Situationen übertragen, in denen eine „Belohnung“ abstrakt, verzögert oder sozial vermittelt sein kann und Reize vielfältig und oft unklar sind.
Dennoch ist die Botschaft, die sich dem Leser bereits jetzt aufdrängt, praktisch und leicht verständlich: Nicht jede Wiederholung ist gleich wertvoll. Wenn das Gehirn tatsächlich mehr lernt, wenn zwischen „Auszahlungen“ ein Abstand liegt, dann sollten Lernen, Gewohnheiten und Therapien vielleicht durch die Linse von Rhythmus und Zeitplan betrachtet werden – und nicht nur durch die Summe der Versuche.
Quellen:- UC San Francisco – Überblick über die Studie und zentrale Aussagen der Autoren ( UCSF )- Nature Neuroscience – wissenschaftliche Arbeit „Duration between rewards controls the rate of behavioral and dopaminergic learning“, DOI: 10.1038/s41593-026-02206-2 ( Nature Neuroscience (PDF) )- Crossref Crossmark – offizielle Metadaten zum Online-Veröffentlichungsdatum (12. Februar 2026.) ( Crossmark )
Unterkünfte in der Nähe finden
Erstellungszeitpunkt: 2 Stunden zuvor