¿Puede el cerebro aprender más rápido a partir de eventos raros que a partir de la repetición? Un estudio de la UCSF cambia la visión del aprendizaje asociativo
Durante más de un siglo, la imagen del perro de Pavlov que, tras el sonido de una campana, espera comida ha servido como prueba casi de manual de que el vínculo entre un estímulo y una recompensa se construye mediante la repetición. Cuantas más veces el sonido precedía a la comida, se asumía, más fuerte y rápido era el aprendizaje. Pero una nueva investigación de científicos de la Universidad de California en San Francisco (UCSF) propone una conclusión distinta — y para muchos provocadora: el número de repeticiones por sí solo no es decisivo; lo crucial es cuánto tiempo transcurre entre recompensas.
Se trata de un trabajo publicado el 12 de febrero de 2026 en la revista
Nature Neuroscience, en el que los autores sostienen que el aprendizaje asociativo está fuertemente determinado por el espaciamiento entre resultados, es decir, entre recompensas. Cuando las recompensas se suceden demasiado cerca unas de otras, el cerebro “extrae” menos de cada episodio individual. Cuando el intervalo es mayor, el aprendizaje por intento se vuelve más eficiente, incluso si en total hay menos intentos.
De “la práctica hace al maestro” a “el momento lo es todo”
En la explicación clásica del aprendizaje asociativo, un animal (o un ser humano) reconoce mediante la repetición que cierta señal del entorno anuncia un resultado. En la neurociencia moderna, esto a menudo se describe también a través del papel de la dopamina: al principio, la dopamina se libera con mayor intensidad cuando llega la recompensa, y con el tiempo esa señal “se desplaza” al estímulo que anuncia la recompensa. Ese desplazamiento de la respuesta dopaminérgica se interpreta como un mecanismo por el que el cerebro construye predicciones, refuerza conexiones útiles y debilita las que no se confirman.
El equipo de la UCSF, encabezado por el neurólogo Vijai Mohan K. Namboodiri, quiso comprobar hasta qué punto ese proceso está realmente ligado al número de intentos. En experimentos con ratones utilizaron una tarea sencilla: un sonido (estímulo) anuncia agua endulzada con azúcar (recompensa). En lugar de cambiar la “dificultad” de la tarea o el tipo de recompensa, cambiaron algo que a menudo se da por sentado: el intervalo entre intentos.
Experimento con ratones: menos recompensas y el mismo aprendizaje
En la primera serie de pruebas, los investigadores organizaron los intentos de modo que en un grupo el intervalo era corto, aproximadamente de 30 a 60 segundos, y en el otro mucho más largo, de cinco a diez minutos o más. Así se creó una situación que, según la lógica antigua, debería haber favorecido claramente un calendario “denso”: los ratones con intervalos cortos recibían muchas más recompensas en el mismo marco temporal, porque podían pasar por más intentos.
El resultado, sin embargo, fue en la dirección opuesta. Los grupos que tuvieron significativamente menos intentos, pero con recompensas espaciadas, aprendieron igual de rápido en términos del tiempo total necesario para mostrar la conducta aprendida. En otras palabras, más intentos no significaron un aprendizaje proporcionalmente más rápido. Lo que cambió fue el número de intentos necesarios para “captar” la asociación: con intervalos más largos, los ratones necesitaron muchas menos repeticiones para empezar a reaccionar al sonido esperando una recompensa.
En los datos publicados, los autores señalan que, por ejemplo, los ratones con un intervalo de 600 segundos entre intentos aprendieron de media en un número de intentos de un solo dígito, mientras que el grupo con un intervalo de 60 segundos necesitó muchas más repeticiones para llegar al mismo resultado. Aunque los intentos “más raros” parecían un camino más lento, el tiempo total hasta la aparición de la conducta aprendida fue comparable.
La dopamina como “medidor” del tiempo entre recompensas
Para entender qué ocurría en el cerebro, los investigadores siguieron la actividad dopaminérgica durante el aprendizaje. En este contexto, la dopamina suele describirse como una señal que ayuda al cerebro a actualizar expectativas: cuando ocurre algo mejor o peor de lo esperado, la respuesta dopaminérgica puede “engrosar” o “adelgazar” el vínculo entre estímulo y resultado.
En el modelo de la UCSF, sin embargo, la dopamina no actúa solo como reacción a la sorpresa, sino también como parte de un mecanismo que tiene en cuenta el intervalo temporal entre recompensas. Cuando las recompensas eran más raras, la respuesta dopaminérgica al estímulo aparecía antes, tras menos repeticiones, como si el cerebro “concluyera” más rápido que la señal realmente porta información. Cuando las recompensas eran frecuentes y se acumulaban, el cerebro aprendía menos de cada episodio, por lo que se necesitaban más repeticiones para que la señal dopaminérgica se desplazara de forma estable al estímulo.
Los autores lo resumen con la tesis de que el aprendizaje asociativo es menos “la práctica hace al maestro” y más “el momento lo es todo”: la eficiencia del aprendizaje por intento aumenta cuando el intervalo entre recompensas es mayor.
No solo el intervalo, sino también la rareza de la recompensa
Una parte interesante del estudio se refería a un escenario en el que el estímulo está presente con regularidad, pero la recompensa aparece raramente. En una variante, los investigadores emitían el sonido en intervalos de unos 60 segundos, pero daban el agua endulzada con azúcar solo en aproximadamente el 10% de los intentos. Ese diseño imita situaciones de la vida real en las que una señal determinada está presente a menudo, pero el “pago” ocurre de forma ocasional e impredecible.
En ese caso, los ratones empezaron a liberar dopamina tras el sonido con un número relativamente pequeño de recompensas recibidas, incluso cuando el sonido no iba seguido de una recompensa. Esto es importante porque sugiere que el cerebro puede construir expectativas e incentivos fuertes a partir de resultados raros pero “informativos”. Un mecanismo así podría explicar por qué algunas formas de conducta se vuelven persistentes y difíciles de extinguir, especialmente cuando las recompensas son intermitentes.
Por qué el “empollón” suele fallar: posible vínculo con el aprendizaje escolar
Aunque el estudio trata sobre mecanismos básicos del aprendizaje en el cerebro de ratones, los autores y comentaristas destacan posibles implicaciones más amplias. Una es intuitiva: cuando la información se “amontona” en poco tiempo, como en el estudio intensivo la noche antes de un examen, cada episodio individual de repetición puede tener un efecto menor. En cambio, el aprendizaje distribuido a lo largo de un periodo más largo le da al cerebro el intervalo temporal que, según esta teoría, aumenta la cantidad de “aprendizaje por evento”.
En la práctica, esto se acerca a lo que la psicología educativa ha reconocido durante mucho tiempo como el efecto del aprendizaje espaciado. Pero el trabajo de la UCSF intenta ofrecer una descripción neurobiológica y matemática más precisa: no se trata solo de que espaciar sea “mejor”, sino de que la tasa de aprendizaje puede escalar con el tiempo entre recompensas o resultados, mientras que el tiempo total necesario para aprender algo se mantiene aproximadamente estable y el número de repeticiones varía.
Implicaciones para las adicciones: “disparadores” intermitentes y hábitos duraderos
Consecuencias aún más sensibles se refieren a conductas adictivas. Fumar suele ser un ejemplo de un hábito que incluye numerosas señales del entorno: el olor del humo, la vista del paquete, un lugar determinado o una compañía. La recompensa (nicotina y la respuesta dopaminérgica asociada) no tiene por qué llegar en intervalos perfectamente regulares; en la realidad puede ser intermitente, dependiente de la situación y de la disponibilidad. Si el cerebro realmente aprende con más fuerza a partir de recompensas raras, espaciadas o impredecibles, eso podría reforzar el vínculo entre esas señales y el deseo.
En la explicación de la UCSF también se menciona por qué terapias que proporcionan una dosis continua y estable (como los parches de nicotina) podrían ayudar a algunas personas. Si la “firma” dopaminérgica de la recompensa está constantemente presente y menos ligada a estímulos específicos, entonces la asociación entre señales y recompensa se interrumpe o se debilita. Esto podría, al menos en teoría, reducir la fuerza de los disparadores que de otro modo alimentan la urgencia de un cigarrillo.
Esa interpretación no significa que la solución sea universal ni que la adicción pueda reducirse a un solo mecanismo. Pero aporta un marco adicional para entender por qué el refuerzo intermitente y los disparadores del entorno pueden ser tan poderosos, y por qué las estrategias de tratamiento suelen intentar cambiar la relación entre señales, expectativas y resultados.
Qué significa esto para la inteligencia artificial: ¿aprender más rápido con menos ejemplos?
Los autores del trabajo también plantean la cuestión de si este principio podría trasladarse a sistemas de inteligencia artificial. Muchos algoritmos de aprendizaje modernos, especialmente los que se basan en variantes del aprendizaje por refuerzo, actualizan sus estimaciones tras un número enorme de interacciones. Ese enfoque “trial-by-trial” se parece a la suposición más antigua sobre el aprendizaje asociativo: cada nuevo episodio aporta una pequeña corrección y el progreso se construye mediante miles de millones de repeticiones.
Si el cerebro puede aumentar la tasa de aprendizaje por episodio cuando los resultados son más raros o están más espaciados, esto sugiere que los modelos podrían ser más eficientes si incorporaran la estructura temporal de la experiencia en la propia lógica del aprendizaje. En ese escenario, el sistema extraería más información de eventos individuales “más costosos”, en lugar de basarse en una repetición interminable con cambios mínimos. Los investigadores subrayan que se trata de una dirección para trabajos futuros y no de una receta cerrada: trasladar principios biológicos a modelos computacionales requiere cautela, pruebas y límites claros de aplicabilidad.
La pregunta más amplia: ¿hasta qué punto era completa la teoría antigua?
Es importante subrayar que el estudio de la UCSF no afirma que la repetición no sea importante. En muchas habilidades, la repetición construye automatismo, precisión y resistencia. Lo que se cuestiona es la ecuación simple “más intentos = aprendizaje más rápido” en el ámbito del aprendizaje asociativo básico, especialmente cuando se trata de vincular estímulos y resultados en tareas de laboratorio relativamente cortas.
El trabajo en
Nature Neuroscience introduce la idea de que el cerebro sigue la “economía” temporal de las recompensas: cuando las recompensas se acumulan, cada una tiene un menor valor informativo sobre la causa; cuando las recompensas están espaciadas, el cerebro trata cada episodio como más importante para inferir qué en el entorno predice realmente el resultado. Los autores probaron esa relación con distintos intervalos y mostraron que el número de intentos hasta el aprendizaje puede cambiar de forma aproximadamente proporcional al cambio en el espaciamiento, mientras que el tiempo total hasta el aprendizaje se mantiene similar.
Además, los resultados del trabajo se extendieron al aprendizaje asociado a resultados desagradables, donde también se observa que la tasa de aprendizaje puede escalar con el tiempo entre resultados. Esto sugiere que el principio no se limita solo a una recompensa “dulce”, sino que puede tener una aplicabilidad más amplia en la forma en que el cerebro establece expectativas, ya sea acercándose a una recompensa o evitando una amenaza.
Qué está claro por ahora y qué queda abierto
Según los datos disponibles, el estudio muestra de forma sólida que, en condiciones de una tarea controlada en ratones, el intervalo entre recompensas cambia fuertemente la eficiencia del aprendizaje por intento, con cambios claros en la señalización dopaminérgica. Lo que aún debe aclararse es cómo se trasladan estas reglas a situaciones humanas complejas, donde una “recompensa” puede ser abstracta, diferida o mediada socialmente, y los estímulos son múltiples y a menudo ambiguos.
Aun así, el mensaje que ya se impone al lector es práctico y fácil de entender: no toda repetición vale lo mismo. Si el cerebro realmente aprende más cuando entre “pagos” hay un intervalo, entonces el aprendizaje, los hábitos y las terapias quizá deban verse a través del prisma del ritmo y la programación, y no solo a través de la suma de intentos.
Fuentes:- UC San Francisco – resumen del estudio y declaraciones clave de los autores ( UCSF )- Nature Neuroscience – artículo científico “Duration between rewards controls the rate of behavioral and dopaminergic learning”, DOI: 10.1038/s41593-026-02206-2 ( Nature Neuroscience (PDF) )- Crossref Crossmark – metadatos oficiales sobre la fecha de publicación en línea (12 de febrero de 2026) ( Crossmark )
Encuentra alojamiento cerca
Hora de creación: 2 horas antes