L'informatique basée sur l'intelligence artificielle entre dans une phase où l'efficacité énergétique ne peut plus être traitée comme un sujet secondaire. L'entraînement et l'exécution de modèles d'intelligence artificielle générative, d'apprentissage profond et de vision par ordinateur poussent la consommation d'électricité des centres de données vers des niveaux comparables à la consommation d'États entiers. Les estimations montrent que les centres de données ont consommé environ 415 térawattheures d'électricité en 2024, et d'ici la fin de la décennie, ce chiffre pourrait plus que doubler. Dans ce contexte, chaque watt économisé au niveau de la puce devient stratégiquement important.
Un groupe de chercheurs du Massachusetts Institute of Technology (MIT) a donc développé une nouvelle plateforme d'intégration électronique qui tente de résoudre le problème là où il se pose – dans l'architecture même de la puce. Au lieu de garder les composants logiques et la mémoire séparés, comme dans les circuits classiques, ils les empilent verticalement en une "pile" tridimensionnelle compacte construite au-dessus du circuit déjà existant. La nouvelle approche permet de placer les transistors et les éléments de mémoire les uns sur les autres dans la partie arrière de la puce, raccourcissant ainsi considérablement le chemin parcouru par les données et réduisant les pertes d'énergie.
La clé de cette technologie est la combinaison d'un nouveau matériau – l'oxyde d'indium amorphe – et d'un processus de fabrication soigneusement optimisé qui fonctionne à des températures nettement inférieures à celles de la technologie CMOS classique. Cela ouvre la possibilité de mettre à niveau des circuits en silicium déjà terminés avec des "étages" supplémentaires de logique et de mémoire, sans détruire les transistors fabriqués dans la partie avant de la ligne de processus. Le résultat est une plateforme électronique qui promet un calcul plus rapide, une consommation d'énergie réduite et une densité d'intégration plus élevée, particulièrement attrayante pour des applications comme l'IA générative, l'apprentissage profond et le traitement d'image en temps réel.
Le goulot d'étranglement de l'architecture classique : logique et mémoire séparées
La plupart des systèmes informatiques d'aujourd'hui reposent encore sur une architecture qui place la logique (le processeur) et la mémoire dans des blocs physiquement séparés. Les transistors logiques exécutent des instructions, tandis que les éléments de mémoire – qu'il s'agisse de SRAM, de DRAM ou de flash – servent à stocker les données et les paramètres des modèles. Chaque fois que le processeur a besoin d'une donnée, elle doit "voyager" à travers un réseau de fils, d'interconnexions et de bus. Ce trafic constant d'informations entre la logique et la mémoire est connu sous le nom de goulot d'étranglement de von Neumann et est aujourd'hui l'une des principales sources d'inefficacité.
À mesure que les modèles deviennent de plus en plus grands et que la quantité de données augmente de façon exponentielle, le coût énergétique du simple déplacement des bits devient supérieur au coût du calcul lui-même. Les analyses montrent qu'une partie importante de l'énergie dans les centres de données est consacrée précisément au transfert de données à l'intérieur de la puce, entre les puces, et vers et depuis la mémoire externe. De plus, chaque saut supplémentaire entre les niveaux de la hiérarchie de la mémoire introduit des latences et limite la vitesse totale du système. Par conséquent, une part croissante de la recherche s'oriente vers le concept de calcul "en mémoire" et vers l'intégration tridimensionnelle qui raccourcit le chemin des données.
Les puces CMOS standard sont strictement divisées en partie avant et partie arrière du processus. Dans la partie avant (front-end-of-line), sont fabriqués les composants actifs tels que les transistors et les condensateurs, tandis que la partie arrière (back-end-of-line) sert à acheminer les fils, les interconnexions et la métallisation qui relient ces composants en circuits fonctionnels. Bien que la partie arrière du processus ait connu des améliorations significatives au fil des ans, elle continue de servir principalement d'"autoroute pour les électrons", et non de zone active où se déroule le calcul.
Le problème survient lorsque nous voulons construire des couches actives supplémentaires au-dessus des transistors déjà formés dans la partie avant. Les transistors en silicium classiques nécessitent des températures de traitement élevées, souvent plusieurs centaines de degrés Celsius, ce qui endommagerait ou détruirait de manière irréversible les dispositifs situés en dessous. C'est pourquoi l'empilement vertical de la logique et de la mémoire au sein de la même puce, avec une densité appropriée pour les accélérateurs d'IA modernes, est resté jusqu'à présent largement dans le domaine de la théorie et des simulations.
Nouvelle stratégie : composants actifs dans la partie arrière de la puce
L'équipe du MIT a décidé de "renverser" l'approche habituelle et d'utiliser la partie arrière du processus comme un espace pour intégrer des couches actives supplémentaires. Au lieu d'essayer de cuire à nouveau du silicium à haute température, les chercheurs ont développé des transistors qui peuvent être fabriqués à des températures d'environ 150 degrés Celsius, directement sur les structures de la partie arrière. Ainsi naît une couche supplémentaire de logique et de mémoire qui se trouve au-dessus du circuit CMOS existant, mais ne l'endommage pas.
L'idée de base est d'ajouter sur une puce déjà terminée, sur laquelle les transistors en silicium classiques sont toujours chargés d'une partie du travail, de nouvelles couches de transistors et de mémoire dans la partie arrière. Ces couches prennent en charge les tâches les plus énergivores – par exemple le traitement local des données et le stockage des paramètres des réseaux neuronaux – tandis que la logique de base dans la partie avant est utilisée comme "ancre" de l'ensemble du système. Le résultat est une architecture hybride dans laquelle différents matériaux et technologies se complètent mutuellement.
Pour qu'une telle approche réussisse, il est nécessaire de trouver des matériaux qui conservent de bonnes caractéristiques électroniques même à de très petites dimensions, mais qui peuvent en même temps être déposés à basse température. C'est précisément là qu'entre en scène l'oxyde d'indium amorphe, un matériau qui a attiré une grande attention ces dernières années en tant que candidat pour les transistors dans la partie arrière de la ligne de processus et dans l'intégration 3D monolithique.
Oxyde d'indium amorphe : un canal de deux nanomètres d'épaisseur
L'oxyde d'indium amorphe appartient au groupe des semi-conducteurs d'oxydes amorphes, des matériaux qui offrent une combinaison de haute mobilité des charges, de bonne mise à l'échelle et de capacité de dépôt en couches minces à des températures relativement basses. Dans les travaux du MIT, ce matériau joue le rôle de canal actif des transistors fabriqués dans la partie arrière de la puce. Le canal est la couche où se déroule la fonction clé du transistor – l'activation et la désactivation contrôlées du flux d'électrons entre la source et le drain.
Les chercheurs ont réussi à former une couche d'oxyde d'indium amorphe d'une épaisseur d'environ deux nanomètres, ce qui représente environ une douzaine de couches atomiques. Dans ce régime de films ultra-minces, chaque défaut dans le réseau du matériau a un impact relativement important sur le comportement du dispositif. Les soi-disant lacunes d'oxygène – des endroits dans le réseau où il manque un atome d'oxygène – sont particulièrement importantes car ce sont précisément ces défauts qui peuvent agir comme des sites donneurs fournissant les électrons libres nécessaires à la conduction du courant.
Pour le bon fonctionnement du transistor, il est nécessaire de trouver un équilibre : trop peu de lacunes signifient que le canal est un conducteur trop faible et que le dispositif est difficile à allumer, tandis que trop de défauts entraînent des fuites de courant, une instabilité et une consommation d'énergie accrue à l'état éteint. L'équipe du MIT a donc consacré une grande partie de son travail au contrôle précis du processus de dépôt et de traitement ultérieur de l'oxyde d'indium amorphe, afin que le nombre et la distribution des défauts soient exactement ceux nécessaires pour un fonctionnement stable à des échelles nanométriques.
Le résultat est un transistor extrêmement petit avec une couche de canal de seulement quelques nanomètres, qui peut basculer de manière fiable entre les états allumé et éteint avec très peu d'énergie supplémentaire. Selon les chercheurs, de tels transistors optimisés atteignent des performances comparables, voire meilleures, que les solutions actuellement les plus avancées de leur catégorie, avec une consommation d'énergie inférieure par opération.
Mémoire intégrée dans le transistor : oxyde de hafnium-zirconium ferroélectrique
Sur la base de la même approche, les chercheurs ont également fabriqué des transistors avec mémoire intégrée, également dans la partie arrière de la puce. Ces soi-disant transistors à mémoire ont des dimensions de l'ordre de grandeur de 20 nanomètres et utilisent l'oxyde de hafnium-zirconium ferroélectrique comme couche de mémoire clé. Il s'agit d'un matériau capable de conserver deux états stables de polarisation électrique, ce qui le rend approprié pour des mémoires non volatiles à faible consommation d'énergie.
L'oxyde de hafnium-zirconium ferroélectrique (HfZrO ou HZO) est devenu au cours des dix dernières années l'une des stars de la recherche dans le domaine des mémoires de nouvelle génération. Contrairement aux matériaux ferroélectriques plus anciens, ce composé est compatible avec le processus CMOS standard et peut être cristallisé à des températures suffisamment basses pour ne pas endommager les structures existantes dans la partie arrière de la ligne de processus. C'est pourquoi le HZO est de plus en plus souvent mentionné comme candidat pour l'intégration de mémoires ferroélectriques directement sur des puces logiques.
Dans la démonstration du MIT, une couche ferroélectrique d'oxyde de hafnium-zirconium a été ajoutée au-dessus du canal en oxyde d'indium amorphe, créant ainsi un transistor à mémoire compact. En modifiant la polarisation de la couche ferroélectrique, le seuil effectif d'activation du transistor change, ce qui permet le stockage d'états logiques sans avoir besoin de rafraîchissement constant. Une telle approche combine les fonctions de logique et de mémoire dans le même élément physique, de sorte que le même transistor peut être utilisé à la fois pour le traitement des données et pour leur stockage.
Ces transistors à mémoire montrent un basculement d'état extrêmement rapide, de l'ordre de grandeur de dix nanosecondes, ce qui est si rapide qu'il s'approche des limites des instruments de mesure utilisés dans l'expérience. Plus important encore, ce changement d'état est obtenu à des tensions nettement inférieures à celles de dispositifs similaires, ce qui réduit encore la consommation totale d'énergie.
Gain énergétique : moins de mouvement de données, plus de calcul par joule
La fusion de la logique et de la mémoire dans une structure empilée verticalement affecte considérablement le profil énergétique du système. Lorsqu'un transistor peut stocker localement la donnée qu'il est en train de traiter, il n'est pas nécessaire que les bits soient envoyés en permanence à travers la puce et vers la mémoire externe. Chaque saut éliminé à travers la hiérarchie de la mémoire signifie moins de pertes dans les fils et les interconnexions, moins d'échauffement et moins d'énergie dépensée pour le refroidissement.
Pour les accélérateurs d'IA, dans lesquels les mêmes paramètres de modèle et les mêmes blocs de données sont lus et écrits des milliards de fois pendant le fonctionnement, cette différence peut être décisive. Les estimations des organisations mondiales montrent que la consommation d'électricité des centres de données pourrait augmenter pour atteindre environ 950 térawattheures par an d'ici 2030, principalement en raison de la croissance des charges de travail d'IA. Même un pourcentage relativement faible d'économies par puce, au niveau de quelques dizaines de pour cent de consommation en moins par opération, peut se transformer en économies significatives au niveau de centres de données entiers et de systèmes énergétiques.
L'approche du MIT s'inscrit donc dans une stratégie plus large d'"IA efficace", qui compte non seulement sur les sources d'énergie renouvelables et une meilleure infrastructure, mais aussi sur une informatique nettement plus efficace dans la base de silicium elle-même. En empilant verticalement les transistors et la mémoire, il est possible d'obtenir plus d'opérations par joule d'énergie, sans nécessairement augmenter la fréquence d'horloge ou ajouter un nombre toujours croissant de cœurs conventionnels.
Lien avec les tendances mondiales de l'industrie des semi-conducteurs
Les travaux de l'équipe du MIT s'appuient sur une forte vague de recherche qui cherche ces dernières années des moyens d'utiliser les semi-conducteurs d'oxydes amorphes et les matériaux ferroélectriques dans la partie arrière du processus pour l'intégration 3D monolithique. De nombreux groupes universitaires et laboratoires industriels ont déjà montré que l'oxyde d'indium et les matériaux apparentés peuvent être déposés en couches ultra-minces, avec une mobilité élevée des porteurs de charge et un fonctionnement stable à faible consommation.
Parallèlement, les mémoires ferroélectriques basées sur l'oxyde de hafnium et l'oxyde de hafnium-zirconium sont intensément étudiées. Elles offrent un stockage de données non volatil, la possibilité de fonctionner à de basses tensions et une compatibilité avec les technologies silicium existantes. Les dernières revues de la littérature montrent que les transistors ferroélectriques peuvent atteindre des temps de commutation de l'ordre de quelques nanosecondes, un fonctionnement avec des niveaux de tension inférieurs à cinq volts et une endurance de milliards de cycles, ce qui en fait des candidats sérieux pour les futures mémoires embarquées et le calcul en mémoire.
La démonstration du MIT combine ces tendances en un seul système : elle utilise l'oxyde d'indium amorphe pour construire des transistors à basse température dans la partie arrière de la puce et l'oxyde de hafnium-zirconium pour la mise en œuvre d'une mémoire ferroélectrique compacte. De plus, les chercheurs, en collaboration avec des partenaires, ont également développé des modèles de performance de ces transistors, ce qui est une étape clé pour que de tels éléments soient intégrés dans des circuits plus grands, tels que des accélérateurs pour réseaux neuronaux ou des processeurs spécialisés pour la vision par ordinateur.
Du prototype de recherche à l'application industrielle
Les nouveaux transistors et éléments de mémoire ont été présentés lors de la prestigieuse réunion IEEE International Electron Devices Meeting (IEDM), qui est considérée comme l'un des principaux lieux où l'industrie et la communauté universitaire échangent des résultats sur l'avenir de la technologie des semi-conducteurs. Le fait que des chercheurs du MIT, de l'Université de Waterloo et du géant industriel Samsung Electronics aient participé aux travaux montre que l'idée de l'empilement vertical de la logique et de la mémoire dans la partie arrière de la puce est déjà très sérieusement envisagée en dehors du laboratoire également.
Le chemin du prototype de recherche au produit commercial est néanmoins long. Il est nécessaire de prouver la fiabilité du dispositif sur des milliards de cycles, de montrer que les nouveaux matériaux peuvent être fabriqués de manière reproductible en grandes séries et d'intégrer des outils de conception qui permettront aux ingénieurs d'utiliser ces transistors et mémoires dans des projets réels. La modélisation des performances, sur laquelle travaillent le MIT et ses partenaires, est l'une des premières étapes : elle permet de simuler dès aujourd'hui des circuits qui utiliseraient de tels éléments et d'estimer leur bénéfice par rapport aux architectures classiques.
L'industrie des semi-conducteurs explore simultanément d'autres approches de l'empilement tridimensionnel – des technologies de mémoire avancées aux transistors logiques qui sont empilés les uns sur les autres dans des structures complémentaires. Cependant, les solutions qui peuvent être intégrées dans les processus CMOS existants, sans changements drastiques dans les usines de production, ont les plus grandes chances d'adoption rapide. En ce sens, les semi-conducteurs d'oxydes amorphes et l'oxyde de hafnium-zirconium ont un avantage important car ils s'intègrent déjà dans l'infrastructure existante.
Prochaines étapes : mise à l'échelle, optimisation et nouvelles fonctionnalités
L'équipe de recherche du MIT a déjà annoncé que les prochaines étapes incluent l'amélioration continue des performances des transistors fabriqués dans la partie arrière, ainsi qu'un contrôle plus fin des propriétés de l'oxyde de hafnium-zirconium ferroélectrique. L'objectif est d'augmenter simultanément la vitesse de fonctionnement, de réduire les tensions requises et de maintenir la stabilité pendant le fonctionnement à long terme. À cet égard, la compréhension de la physique fondamentale au niveau des domaines ferroélectriques individuels dans les structures nanométriques jouera également un rôle important.
Il est particulièrement intéressant que ces transistors à mémoire miniatures servent non seulement d'éléments fonctionnels, mais aussi de plateforme expérimentale pour étudier la physique des ferroélectriques dans des dimensions extrêmement réduites. En observant comment les domaines se comportent dans des structures de la taille de seulement quelques dizaines de nanomètres, les chercheurs peuvent tester des modèles théoriques et concevoir de nouvelles façons d'utiliser la ferroélectricité dans le calcul, les capteurs ou les circuits neuromorphiques.
Au sens large, le travail de l'équipe du MIT fait partie d'une course mondiale pour de nouveaux matériaux et architectures qui pourraient remplacer ou mettre à niveau le silicium lorsque nous approcherons des limites physiques de sa mise à l'échelle. La combinaison de l'intégration tridimensionnelle, de nouveaux semi-conducteurs et de mémoires ferroélectriques offre une voie vers des puces qui fournissent simultanément une plus grande puissance de traitement, une consommation d'énergie réduite et une organisation des données plus flexible – exactement ce qui est nécessaire pour que l'intelligence artificielle générative et d'autres outils gourmands en données puissent se développer sans provoquer de crise énergétique.
Bien qu'il faille du temps avant que de tels transistors et mémoires ne voient le jour dans des produits de masse, la direction est claire : les futures générations de systèmes informatiques ressembleront de plus en plus à des structures en couches dans lesquelles les données sont traitées là où elles sont créées, et la frontière entre la logique et la mémoire disparaît progressivement. Dans ce scénario, des solutions comme la plateforme du MIT pour l'empilement de transistors et de mémoire dans la partie arrière de la puce peuvent jouer un rôle important dans le maintien de la croissance de la puissance de calcul, tout en gardant la consommation d'énergie sous contrôle.
Trouvez un hébergement à proximité
Heure de création: 7 heures avant