Le cerveau peut-il apprendre plus vite à partir d’événements rares qu’à partir de répétitions ? Une étude de l’UCSF change la vision de l’apprentissage associatif
Depuis plus d’un siècle, l’image du chien de Pavlov qui, au son d’une cloche, s’attend à recevoir de la nourriture a servi de preuve presque scolaire que le lien entre un stimulus et une récompense se construit par la répétition. Plus le son précédait la nourriture, pensait-on, plus l’apprentissage était fort et rapide. Mais une nouvelle recherche de scientifiques de l’University of California, San Francisco (UCSF) propose une conclusion différente — et pour beaucoup provocatrice : le nombre de répétitions en lui-même n’est pas décisif ; ce qui compte, c’est le temps qui s’écoule entre les récompenses.
Il s’agit d’un article publié le 12 février 2026 dans la revue
Nature Neuroscience, dans lequel les auteurs affirment que l’apprentissage associatif est fortement déterminé par l’espacement entre les issues, c’est-à-dire entre les récompenses. Lorsque les récompenses s’enchaînent trop près les unes des autres, le cerveau « extrait » moins de chaque épisode individuel. Lorsque l’intervalle est plus long, l’apprentissage par essai devient plus efficace, même s’il y a moins d’essais au total.
De « c’est en forgeant qu’on devient forgeron » à « le timing, c’est tout »
Dans l’explication classique de l’apprentissage associatif, un animal (ou un humain) reconnaît par la répétition qu’un certain indice dans l’environnement annonce une issue. En neurosciences modernes, on décrit souvent cela aussi via le rôle de la dopamine : au début, la dopamine est libérée plus fortement lorsque la récompense arrive, puis, avec le temps, ce signal « se déplace » vers le stimulus qui annonce la récompense. Un tel déplacement de la réponse dopaminergique est interprété comme un mécanisme par lequel le cerveau construit des prédictions, renforce les connexions utiles et affaiblit celles qui ne se confirment pas.
L’équipe de l’UCSF, dirigée par le neurologue Vijai Mohan K. Namboodiri, a voulu vérifier dans quelle mesure ce processus est réellement lié au nombre d’essais. Dans des expériences sur des souris, ils ont utilisé une tâche simple : un son (stimulus) annonce de l’eau sucrée (récompense). Au lieu de modifier la « difficulté » de la tâche ou le type de récompense, ils ont modifié ce que l’on tient souvent pour acquis : l’intervalle entre les essais.
Expérience sur des souris : moins de récompenses, mais un apprentissage identique
Dans la première série d’essais, les chercheurs ont organisé les tentatives de sorte que, pour un groupe, l’intervalle soit court, environ 30 à 60 secondes, et pour l’autre, nettement plus long, de cinq à dix minutes ou plus. Cela a créé une situation qui, selon l’ancienne logique, aurait dû clairement favoriser un calendrier « dense » : les souris avec des intervalles courts recevaient beaucoup plus de récompenses dans la même fenêtre de temps, car elles pouvaient passer par davantage d’essais.
Le résultat est toutefois allé dans la direction inverse. Les groupes qui avaient nettement moins d’essais, mais dont les récompenses étaient espacées, apprenaient tout aussi vite en termes de temps total nécessaire pour manifester le comportement appris. Autrement dit, plus d’essais ne signifiait pas un apprentissage proportionnellement plus rapide. Ce qui changeait, c’était le nombre d’essais nécessaire pour « capter » l’association : avec des intervalles plus longs, les souris avaient besoin de beaucoup moins de répétitions pour commencer à réagir au son en s’attendant à une récompense.
Dans les données publiées, les auteurs indiquent que, par exemple, les souris avec un intervalle de 600 secondes entre les essais ont appris en moyenne en un nombre d’essais à un chiffre, tandis que le groupe avec un intervalle de 60 secondes a eu besoin de beaucoup plus d’essais pour atteindre le même résultat. Même si les essais « plus rares » semblaient être un chemin plus lent, le temps total jusqu’à l’apparition du comportement appris était comparable.
La dopamine comme « mesureur » du temps entre les récompenses
Pour comprendre ce qui se passait dans le cerveau, les chercheurs ont suivi l’activité dopaminergique pendant l’apprentissage. Dans ce contexte, la dopamine est souvent décrite comme un signal qui aide le cerveau à mettre à jour ses attentes : lorsqu’il se produit quelque chose de meilleur ou de pire que prévu, la réponse dopaminergique peut « épaissir » ou « amincir » le lien entre le stimulus et l’issue.
Dans le modèle de l’UCSF, toutefois, la dopamine n’agit pas seulement comme une réaction à la surprise, mais aussi comme une partie d’un mécanisme qui tient compte de l’intervalle temporel entre les récompenses. Lorsque les récompenses étaient plus rares, la réponse dopaminergique au stimulus apparaissait plus tôt, après moins de répétitions, comme si le cerveau « concluait » plus vite que l’indice porte réellement une information. Lorsque les récompenses étaient fréquentes et regroupées, le cerveau apprenait moins de chaque épisode, si bien qu’il fallait plus de répétitions pour que le signal dopaminergique se déplace de manière stable vers le stimulus.
Les auteurs résument cela par la thèse que l’apprentissage associatif est moins « c’est en forgeant qu’on devient forgeron » et davantage « le timing, c’est tout » : l’efficacité de l’apprentissage par essai augmente lorsque l’intervalle entre les récompenses est plus long.
Pas seulement l’intervalle, mais aussi la rareté de la récompense
Une partie intéressante de l’étude portait sur un scénario dans lequel le stimulus est présent régulièrement, mais la récompense apparaît rarement. Dans une variante, les chercheurs diffusaient le son à des intervalles d’environ 60 secondes, mais ne donnaient de l’eau sucrée que dans environ 10% des essais. Ce protocole imite des situations de la vie réelle où un signal est souvent présent, mais où le « gain » survient de manière occasionnelle et imprévisible.
Dans ce cas, les souris ont commencé à libérer de la dopamine après le son avec un nombre relativement faible de récompenses reçues, même lorsque le son n’était pas suivi d’une récompense. C’est important car cela suggère que le cerveau peut construire de fortes attentes et incitations sur la base d’issues rares mais « informatives ». Un tel mécanisme pourrait expliquer pourquoi certaines formes de comportement deviennent tenaces et difficiles à éteindre, en particulier lorsque les récompenses sont intermittentes.
Pourquoi le « bachotage » échoue souvent : lien possible avec l’apprentissage scolaire
Bien que l’étude porte sur des mécanismes fondamentaux d’apprentissage dans le cerveau des souris, les auteurs et les commentateurs soulignent des implications potentiellement plus larges. L’une est intuitive : lorsque les informations sont « tassées » sur une courte période, comme lors d’un apprentissage intensif la veille d’un examen, chaque épisode de répétition peut avoir un effet moindre. À l’inverse, un apprentissage réparti sur une période plus longue donne au cerveau l’intervalle temporel qui, selon cette théorie, augmente la quantité « d’apprentissage par événement ».
Dans la pratique, cela rejoint ce que la psychologie de l’éducation reconnaît depuis longtemps comme l’effet de l’apprentissage distribué. Mais le travail de l’UCSF tente d’offrir une description neurobiologique et mathématique plus précise : il ne s’agit pas seulement de dire que l’espacement est « meilleur », mais que le taux d’apprentissage peut se mettre à l’échelle avec le temps entre les récompenses ou les issues, tandis que le temps total nécessaire pour apprendre quelque chose reste approximativement stable et que le nombre de répétitions varie.
Implications pour les addictions : « déclencheurs » intermittents et habitudes durables
Des conséquences encore plus sensibles concernent les comportements addictifs. Le tabagisme est souvent l’exemple d’une habitude qui implique de nombreux indices dans l’environnement : l’odeur de fumée, la vue d’un paquet, un lieu ou une compagnie particulière. La récompense (la nicotine et la réponse dopaminergique associée) n’a pas besoin d’arriver à des intervalles parfaitement réguliers ; dans la réalité, elle peut être intermittente, dépendante de la situation et de la disponibilité. Si le cerveau apprend effectivement plus fortement à partir de récompenses rares, espacées ou imprévisibles, cela pourrait renforcer le lien entre ces indices et l’envie.
L’explication de l’UCSF mentionne aussi pourquoi des thérapies qui délivrent une dose continue et stable (comme les patchs à la nicotine) pourraient aider certaines personnes. Si la « signature » dopaminergique de la récompense est constamment présente et moins liée à des stimuli spécifiques, l’association entre indices et récompense est alors interrompue ou affaiblie. Cela pourrait, au moins en théorie, réduire la puissance des déclencheurs qui, sinon, alimentent l’envie de cigarette.
Une telle interprétation ne signifie pas que la solution est universelle ni que l’addiction peut être réduite à un seul mécanisme. Mais elle offre un cadre supplémentaire pour comprendre pourquoi le renforcement intermittent et les déclencheurs environnementaux peuvent être si puissants, et pourquoi les stratégies de traitement cherchent souvent à modifier la relation entre indices, attentes et issues.
Ce que cela signifie pour l’intelligence artificielle : apprendre plus vite avec moins d’exemples ?
Les auteurs soulèvent aussi la question de savoir si un tel principe peut être transféré aux systèmes d’intelligence artificielle. De nombreux algorithmes d’apprentissage modernes, en particulier ceux fondés sur des variantes de l’apprentissage par renforcement, mettent à jour leurs estimations après un nombre énorme d’interactions. Cette approche « trial-by-trial » rappelle l’ancienne hypothèse sur l’apprentissage associatif : chaque nouvel épisode apporte une petite correction, et le progrès se construit grâce à des milliards de répétitions.
Si le cerveau peut augmenter le taux d’apprentissage par épisode lorsque les issues sont plus rares ou plus espacées, cela suggère que les modèles pourraient être plus efficaces s’ils intégraient la structure temporelle de l’expérience dans la logique même de l’apprentissage. Dans ce scénario, le système tirerait plus d’information d’événements individuels, « plus coûteux », au lieu de s’appuyer sur une répétition sans fin avec des changements minimes. Les chercheurs soulignent toutefois qu’il s’agit d’une piste pour des travaux futurs et non d’une recette prête à l’emploi : le transfert de principes biologiques vers des modèles computationnels exige prudence, tests et limites d’applicabilité claires.
Question plus large : l’ancienne théorie était-elle vraiment complète ?
Il est important de souligner que l’étude de l’UCSF n’affirme pas que la répétition n’est pas importante. Dans de nombreuses compétences, la répétition construit l’automatisme, la précision et l’endurance. Ce qui est remis en question, c’est l’équation simple « plus d’essais = apprentissage plus rapide » dans le domaine de l’apprentissage associatif de base, en particulier lorsqu’il s’agit de relier des stimuli et des issues dans des tâches de laboratoire relativement courtes.
L’article dans
Nature Neuroscience introduit l’idée que le cerveau suit l’« économie » temporelle des récompenses : lorsque les récompenses s’accumulent, chacune porte une valeur informationnelle moindre sur la cause ; lorsque les récompenses sont espacées, le cerveau traite chaque épisode comme plus important pour inférer ce qui, dans l’environnement, prédit réellement l’issue. Les auteurs ont testé cette relation à travers différents intervalles et ont montré que le nombre d’essais nécessaires pour apprendre peut changer de manière approximativement proportionnelle au changement d’espacement, tandis que le temps total jusqu’à l’apprentissage reste similaire.
De plus, les résultats ont été étendus dans l’article à l’apprentissage lié à des issues désagréables, où l’on voit également que le taux d’apprentissage peut se mettre à l’échelle avec le temps entre les issues. Cela suggère que le principe ne se limite pas à une récompense « sucrée », mais peut avoir une applicabilité plus large dans la manière dont le cerveau établit des attentes, qu’il s’agisse de s’approcher d’une récompense ou d’éviter une menace.
Ce qui est clair pour l’instant, et ce qui reste ouvert
D’après les données disponibles, l’étude montre solidement que, dans les conditions d’une tâche contrôlée chez la souris, l’intervalle entre les récompenses modifie fortement l’efficacité de l’apprentissage par essai, avec des changements nets de la signalisation dopaminergique. Ce qui reste à clarifier, c’est la manière dont ces règles se transposent à des situations humaines complexes, où la « récompense » peut être abstraite, différée ou socialement médiée, et où les stimuli sont multiples et souvent ambigus.
Néanmoins, le message qui s’impose déjà au lecteur est pratique et facile à comprendre : toutes les répétitions n’ont pas la même valeur. Si le cerveau apprend effectivement davantage lorsqu’il existe un intervalle entre les « gains », alors l’apprentissage, les habitudes et les thérapies devraient peut-être être envisagés sous l’angle du rythme et de la répartition, et pas seulement sous celui de la somme des essais.
Sources :- UC San Francisco – présentation de l’étude et déclarations clés des auteurs ( UCSF )- Nature Neuroscience – article scientifique « Duration between rewards controls the rate of behavioral and dopaminergic learning », DOI : 10.1038/s41593-026-02206-2 ( Nature Neuroscience (PDF) )- Crossref Crossmark – métadonnées officielles sur la date de publication en ligne (12 février 2026) ( Crossmark )
Trouvez un hébergement à proximité
Heure de création: 2 heures avant