Pourquoi discernons-nous sans effort chaque mot dans notre langue maternelle, alors que dans une langue étrangère tout se fond en un bourdonnement monotone ? Une question qui tourmente les apprenants en langues et intrigue les scientifiques a reçu ces jours-ci une réponse neuroscientifique convaincante. Deux études complémentaires de l'Université de Californie à San Francisco (UCSF) enregistrent, pour la première fois à ce niveau de détail, comment le gyrus temporal supérieur (STG) dans le cerveau humain « apprend » avec le temps les statistiques et les modèles sonores de la langue à laquelle nous sommes exposés – et ensuite, en une fraction de seconde, marque où commence un mot et où il finit. L'équipe de recherche dirigée par le neurochirurgien Edward Chang a montré que le STG ne réagit pas seulement aux sons de base (voyelles et consonnes), mais aussi aux formes de mots complètes et aux frontières entre les mots. Lorsque nous écoutons des langues que nous connaissons bien, des circuits neuronaux spécialisés s'allument dans le STG ; lors de l'écoute d'une langue inconnue – les mêmes circuits restent « obscurs ».
Les auteurs de l'article expliquent que, lorsque nous parlons à un rythme naturel, nous ne laissons pas de pauses entre les mots. Pourtant, les locuteurs entendent sans effort des frontières claires. Jusqu'à récemment, on supposait que les frontières étaient reconnues par des parties du cerveau servant à la compréhension du sens, et non au traitement primaire du son. Des découvertes plus récentes orientent l'attention vers le STG – un noyau auditivo-linguistique situé au-dessus du lobe temporal – qui était traditionnellement associé à la reconnaissance des sons (voyelles et consonnes) et des caractéristiques phonétiques. Or, il a maintenant été démontré que dans le STG, avec les années d'exposition à la langue, s'« impriment » ses lois phonotactiques (ce qui est permis dans le discours réel et ce qui ne l'est pas), ses rythmes typiques et ses fréquences de mots. Quand de telles lois existent dans la mémoire du STG, les frontières entre les mots émergent presque « automatiquement ».
Ce que les chercheurs ont mesuré exactement et sur qui ils se sont concentrés
Dans la plus grande des deux études, les activités cérébrales de 34 volontaires, qui avaient déjà des électrodes implantées pour le suivi clinique de l'épilepsie, ont été enregistrées. La plupart parlaient l'anglais, l'espagnol ou le chinois mandarin comme langue maternelle, et huit participants étaient bilingues. Tous écoutaient des phrases dans trois langues – certaines connues, certaines totalement inconnues – pendant que les chercheurs analysaient les modèles d'activité dans le STG à l'aide de l'apprentissage automatique. Quand la langue était connue, des réponses renforcées alignées sur des caractéristiques liées aux mots apparaissaient dans le STG : frontières des mots, fréquence et séquences sonores spécifiques à la langue. Ces réponses n'apparaissaient pas lorsque les sujets écoutaient une langue qu'ils ne maîtrisaient pas. En d'autres termes, le STG traite les caractéristiques acoustico-phonétiques universelles dans toutes les langues, mais seule l'expérience avec une langue concrète « amplifie » les signaux qui accompagnent les mots de cette langue.
La seconde étude va un pas plus loin : comment exactement le STG marque-t-il le début et la fin d'un mot ? Des enregistrements à haute résolution temporelle montrent un « reset » caractéristique – une chute courte et nette de l'activité au moment où le mot se termine – après quoi les populations neuronales passent instantanément à un état prêt pour le mot suivant. Ce « reboot » doit se produire à une vitesse de plusieurs fois par seconde, car le discours fluide contient typiquement plusieurs mots en une seconde. C'est précisément cette dynamique qui explique comment un auditeur peut suivre le discours sans ralentir ou perdre le fil, même lorsque les mots sont courts ou collés par des transitions coarticulatoires.
Pourquoi c'est important : le STG comme pont entre le son et le lexique
Dans les modèles classiques d'écoute du langage, on supposait que le STG traitait les niveaux « inférieurs » – l'acoustique et la phonétique – et que la reconnaissance des mots et du sens appartenait aux zones linguistiques « supérieures ». Les nouvelles découvertes soutiennent fortement une vision différente, distribuée : dans le STG, déjà sur une échelle de temps très précoce, se déversent des informations sur des formes de mots complètes (angl. word forms). En d'autres termes, le cerveau n'attend pas la sémantique pour décider ce qu'est un mot ; il existe déjà dans le STG des populations de neurones dont l'activité coïncide avec les frontières et les mots entiers, et cette reconnaissance découle de l'expérience avec le son de la langue. Par conséquent, la segmentation n'est pas seulement une conséquence de la « compréhension du contenu », mais aussi le résultat d'un apprentissage des modèles sonores de longue date.
Cet aperçu explique précisément la différence sensible entre la langue maternelle et une langue étrangère. Dans la langue maternelle, le cerveau est « entraîné » par des millions d'expositions : il reconnaît les combinaisons typiques de consonnes et de voyelles, les distributions de longueurs de syllabes, et même la fréquence de certains mots. Cela le rend rapide et efficace dans la segmentation. Dans une langue étrangère, tous ces paramètres ne sont pas appris de manière stable, donc le STG n'amplifie pas les signaux aux endroits où devraient se trouver les frontières. Le résultat est l'expérience d'une bande sonore ininterrompue.
Bilinguisme et expérience linguistique : le cerveau peut-il avoir deux « ensembles de règles » ?
Les participants qui parlaient couramment deux langues ont montré des signaux de frontières renforcés dans les deux langues – mais pas dans une troisième, inconnue. Cela indique que le STG apprend les statistiques spécifiques à la langue en parallèle pour plusieurs langues, sans mélange nécessaire, à condition que l'exposition soit suffisante et durable. En pratique, cela explique pourquoi les locuteurs bilingues avancés « entendent » les mots aussi bien dans les deux langues, bien que leurs modèles phonotactiques (règles sur les séquences de sons permises) puissent être très différents. Pour les chercheurs sur le bilinguisme, ces données sont précieuses car elles offrent une mesure neurophysiologique du progrès – au lieu de s'appuyer exclusivement sur des tests de compréhension, on peut maintenant suivre aussi le « renforcement des frontières » dans le STG comme biomarqueur objectif de l'acquisition de la langue.
Méthodologie : de l'ECoG aux modèles d'apprentissage automatique
La précision de ces résultats repose sur deux innovations technologiques. Premièrement, des enregistrements intracrâniens de l'activité cérébrale (ECoG et techniques apparentées) ont été utilisés chez des patients qui étaient de toute façon sous surveillance clinique. Ces enregistrements permettent une résolution temporelle au niveau de la milliseconde et une résolution spatiale au niveau des millimètres corticaux – ce qui est incomparablement plus détaillé que les méthodes non invasives. Deuxièmement, l'analyse s'est appuyée sur des modèles d'apprentissage automatique qui extrayaient des enregistrements les modèles liés à la segmentation des mots et aux séquences sonores spécifiques des langues connues. En combinaison, ces deux piliers de la méthodologie ont permis d'enregistrer la dynamique fine : le moment de la chute d'activité à la fin du mot, la vitesse de « réinitialisation » ainsi que la force de la réponse aux mots fréquents et aux combinaisons sonores typiques.
Il est particulièrement significatif que le STG – une région que nous décrivons souvent comme « l'analogue auditif » pour le langage – ait montré un double rôle : un traitement phonétique universel et des traces spécifiques de segmentation lexicale. Le fait que ces traces s'intensifient seulement quand nous écoutons une langue connue est un argument fort que la segmentation est une conséquence de l'apprentissage, et non une caractéristique rigide et innée.
« Reset » entre les mots : une dynamique qui permet une écoute fluide
Dans la seconde étude, les auteurs documentent le rythme auquel le STG « réinitialise » l'activité à la fin d'un mot. Une chute nette est visible sur les enregistrements, une sorte de marqueur de frontière, après quoi suit une montée rapide de l'activité au début du mot suivant. Cette dynamique peut le mieux s'imaginer comme un déclencheur qui veille à ce que le traitement ne déborde pas d'un mot à l'autre. Sans une telle réinitialisation, les frontières seraient « floues », et l'auditeur perdrait rapidement le fil. Puisqu'une phrase moyenne contient deux à trois mots par seconde, le système neuronal de segmentation doit être extrêmement prompte et stable en même temps.
En utilisant des récits naturels, et pas seulement des mots isolés ou des syllabes, les chercheurs ont confirmé que les mêmes modèles apparaissent aussi dans des conditions réelles d'écoute. Au niveau de la population de neurones, le STG a montré une sensibilité aux propriétés des mots complets – leur longueur, leur fréquence et leur position dans la phrase – ce qui est contraire aux modèles simplifiés qui supposent exclusivement un traitement « de la lettre au mot ».
Du laboratoire à la vie : implications pour l'apprentissage des langues, la clinique et la technologie
Apprentissage des langues : Si le STG apprend la statistique des sons et les frontières des mots par l'exposition, il est raisonnable de s'attendre à ce que l'écoute continue de la langue cible – surtout sous forme de discours naturel – accélère la segmentation. En pratique, cela signifie que les livres audio, les podcasts ou les conversations avec des locuteurs natifs sont des étapes qui « nourrissent » le STG avec les données nécessaires pour distinguer les mots. Le point n'est pas seulement le vocabulaire ; le point est le rythme, la prosodie et les séquences sonores typiques.
Clinique : Les résultats éclairent pourquoi des lésions dans les régions temporales – et ce même avec une audition préservée – peuvent résulter en de sérieuses difficultés de compréhension du discours. Si le STG ne parvient pas à segmenter le signal, la personne peut « entendre » mais ne pas « saisir » le discours. Ceci peut expliquer les symptômes de certaines aphasies et aider à la planification d'interventions neurochirurgicales et à la rééducation.
Technologie de reconnaissance vocale : La comparaison avec les modèles actuels de reconnaissance automatique de la parole (ASR) s'impose d'elle-même. Les réseaux de neurones modernes exploitent de plus en plus la composition – du son vers les phonèmes, des phonèmes vers les mots – mais les meilleurs systèmes apprennent aussi des représentations directes des mots. Les résultats du STG suggèrent que les systèmes ASR pourraient profiter de mécanismes explicites de « réinitialisation » aux frontières des mots et de l'apprentissage de règles phonotactiques spécifiques à la langue, tout comme le cerveau humain.
Comment le cerveau « sait-il » où est la frontière du mot ? Une petite école de phonotactique
Les frontières des mots ne sont pas seulement fonction des pauses – souvent il n'y a pas de pauses du tout. Au lieu de cela, la segmentation repose sur une série de règles et de régularités. Par exemple, dans de nombreuses langues, certaines combinaisons de consonnes ne commencent presque jamais un mot, mais apparaissent souvent à l'intérieur d'un mot ; le STG, sous l'influence de l'expérience, commence à amplifier les signaux précisément aux endroits où, statistiquement, la frontière est la plus probable. Un rôle similaire est joué par la fréquence des mots (les mots fréquents « ressortent » plus vite) et la prosodie – l'accent et le rythme – qui au niveau physiologique aident à la prédiction des frontières.
Une telle « littératie statistique » du STG ne signifie pas que la segmentation est exclusivement bottom-up. Au contraire, les auteurs soulignent que les traitements acoustiques précoces et les processus linguistiques supérieurs se déroulent en boucle. Mais la nouveauté clé est que, déjà au niveau du STG, une information sur des mots complets est présente, qui ne dépend pas du sens, mais du modèle sonore que le cerveau a appris à travers les années d'exposition.
Pourquoi une langue étrangère « sonne comme une seule longue lettre » – et comment surmonter cela
Lorsque nous écoutons une langue étrangère pour la première fois, nous n'avons pas de carte fiable des séquences permises et des frontières typiques. La conséquence est que le STG n'amplifie pas les signaux aux « bons » endroits, donc nous écoutons un flux continu qu'il n'est pas facile de « découper » en mots. Bonne nouvelle : à mesure que l'exposition grandit, le STG ajuste ses poids neuronaux – reprend de nouvelles statistiques phonotactiques et commence à incorporer des frontières. De cela découle aussi une recommandation pratique pour l'apprentissage de la langue : une écoute abondante, variée et régulière de matériel authentique, même sans compréhension complète du sens, peut accélérer la segmentation et par conséquent faciliter l'apprentissage du vocabulaire.
Frontières des mots à travers les langues : ce qui est commun, et ce qui est différent
Dans l'étude, l'anglais, l'espagnol et le mandarin ont été choisis car ils offrent un spectre intéressant de propriétés phonologiques et prosodiques. L'anglais est connu pour combiner des groupes de consonnes complexes et un accent variable ; l'espagnol est plus rythmé, avec des frontières syllabiques plus claires ; le mandarin est une langue tonale, dans laquelle la hauteur du ton porte des informations distinctives. Malgré ces différences, le STG a montré une sensibilité commune aux caractéristiques « phonétiques » de base dans toutes les langues – mais le renforcement aux frontières et sur les mots est apparu exclusivement quand nous connaissons la langue. Chez les participants bilingues, le renforcement était visible dans les deux langues, ce qui confirme que le cerveau peut maintenir plusieurs « ensembles de règles » sans conflit mutuel.
Leçons tirées pour l'enseignement et les curriculums
Pédagogiquement parlant, les résultats suggèrent que l'enseignement de l'écoute devrait mettre en évidence les étapes qui soutiennent la segmentation. Cela inclut le travail avec de courts extraits naturels, avec une réduction progressive du soutien (transcriptions, indices visuels), et des exercices axés sur les séquences sonores typiques et les modèles prosodiques de la langue cible. Les activités en deux phases sont aussi utiles : d'abord « écoute sans compréhension » pour le calibrage du STG, et ensuite le traitement du sens. Ainsi, les deux composantes sont soutenues – l'apprentissage statistique du son et la compréhension sémantique.
Du 7 au 19 novembre 2025 : chronologie des publications
Il s'agit de deux publications publiées mi-novembre 2025 : un article dans la revue Neuron (7 novembre 2025) qui documente la dynamique de l'encodage des formes de mots complètes et de la réinitialisation aux frontières, et un article dans Nature (19 novembre 2025) qui sépare les composantes de traitement communes et spécifiques à la langue dans le STG, incluant les signaux amplifiés aux frontières des mots dans la langue maternelle (ou bien connue). Les deux travaux sont leaders dans la ligne de recherche ambitieuse coordonnée par le neurochirurgien Edward Chang, et les publications sont accompagnées de résumés sur les pages universitaires et les services scientifiques.
À qui ces découvertes peuvent aider dès maintenant
Aux cliniciens qui planifient et effectuent des opérations à proximité du STG, car une carte plus précise des fonctions réduit le risque de difficultés postopératoires avec la compréhension du discours. Aux orthophonistes et équipes de rééducation qui conçoivent des interventions pour les patients avec des lésions des régions temporales. Aux méthodologues et enseignants de langues qui structurent des exercices d'écoute avec un accent sur la segmentation. Aux ingénieurs qui conçoivent des systèmes de reconnaissance vocale et des outils de traduction car le STG offre une inspiration biologique pour de meilleurs algorithmes.
Ce que nous ne savons pas encore – et où vont les prochaines étapes
Bien que les résultats soient forts, des questions restent ouvertes : à quel point le « reset » est-il universel à travers différents types de locuteurs et conditions d'enregistrement ? Comment le STG d'un enfant acquiert-il ces règles dans les premières années – le chemin est-il le même que chez un apprenant adulte de langue étrangère ou existe-t-il une période critique ? À quelle vitesse le STG peut-il se « réentraîner » à une nouvelle phonotactique lors d'une immersion intensive dans la langue ? Et enfin, peut-on accélérer l'acquisition de la segmentation par une habilitation ciblée (par ex. stimulation des nerfs périphériques, sur laquelle il existe des expériences) ?
Conseils pratiques à la lumière des nouvelles connaissances
- Accélère l'exposition au son de la langue. L'écoute quotidienne de discours naturel (podcasts, radio, conversations) « nourrit » le STG avec les modèles nécessaires à la segmentation.
- Pratique avec des transcriptions, mais supprime-les progressivement. Écoute d'abord avec le texte pour la stabilisation du modèle, ensuite retire le support et teste « seulement l'ouïe ».
- Concentre-toi sur le rythme et les séquences sonores typiques. De courts exercices de reconnaissance des débuts/fins typiques de mots renforcent la sensibilité aux frontières.
- Utilise plusieurs locuteurs et registres. La diversité « entraîne » le STG à distinguer les règles invariantes des styles idiosyncrasiques.
En bref : les nouveaux travaux apportent une base neurologique à l'expérience que nous avons tous – nous entendons la langue maternelle comme une suite de mots clairs parce que notre STG a appris pendant des années la statistique de son son. Une langue étrangère ne diffère pas parce qu'elle est illogique ou « difficile », mais parce que notre cerveau n'a pas encore appris ses règles de segmentation. Heureusement, le STG est plastique : avec assez d'exposition, cette langue aussi commence à se « démêler » en mots reconnaissables – et ce beaucoup plus vite que nous le pensons.
Trouvez un hébergement à proximité
Heure de création: 6 heures avant