KI-basiertes Rechnen tritt in eine Phase ein, in der Energieeffizienz nicht mehr als Nebenthema behandelt werden kann. Das Training und die Ausführung von Modellen der generativen künstlichen Intelligenz, des Deep Learning und der Computer Vision treiben den Stromverbrauch von Rechenzentren auf ein Niveau, das mit dem Verbrauch ganzer Staaten vergleichbar ist. Schätzungen zeigen, dass Rechenzentren im Jahr 2024 etwa 415 Terawattstunden Strom verbraucht haben, und bis zum Ende des Jahrzehnts könnte sich diese Zahl mehr als verdoppeln. In diesem Kontext wird jedes auf Chipebene eingesparte Watt strategisch wichtig.
Eine Gruppe von Forschern des Massachusetts Institute of Technology (MIT) hat daher eine neue Plattform für die Integration von Elektronik entwickelt, die versucht, das Problem dort zu lösen, wo es entsteht – in der Architektur des Chips selbst. Anstatt logische Komponenten und Speicher getrennt zu halten, wie in klassischen Schaltkreisen, stapeln sie diese vertikal in einem kompakten, dreidimensionalen „Stapel“, der über einem bereits bestehenden Schaltkreis aufgebaut ist. Der neue Ansatz ermöglicht es, Transistoren und Speicherelemente im hinteren Teil des Chips übereinander anzuordnen, wodurch der Weg, den Daten zurücklegen, drastisch verkürzt und Energieverluste verringert werden.
Der Schlüssel zu dieser Technologie ist die Kombination eines neuen Materials – amorphes Indiumoxid – und eines sorgfältig optimierten Fertigungsprozesses, der bei deutlich niedrigeren Temperaturen als die klassische CMOS-Technologie arbeitet. Dadurch eröffnet sich die Möglichkeit, bereits fertige Siliziumschaltkreise mit zusätzlichen „Stockwerken“ aus Logik und Speicher aufzurüsten, ohne die im vorderen Teil der Prozesslinie gefertigten Transistoren zu zerstören. Das Ergebnis ist eine elektronische Plattform, die schnelleres Rechnen, geringeren Energieverbrauch und eine höhere Integrationsdichte verspricht, was besonders attraktiv für Anwendungen wie generative KI, Deep Learning und Echtzeit-Bildverarbeitung ist.
Der Flaschenhals der klassischen Architektur: getrennte Logik und Speicher
Die meisten heutigen Computersysteme verlassen sich weiterhin auf eine Architektur, die Logik (Prozessor) und Speicher in physisch getrennten Blöcken unterbringt. Logische Transistoren führen Anweisungen aus, während Speicherelemente – sei es SRAM, DRAM oder Flash – zur Speicherung von Daten und Modellparametern dienen. Jedes Mal, wenn der Prozessor Daten benötigt, müssen diese durch ein Netzwerk von Leitungen, Verbindungen und Bussen „reisen“. Dieser ständige Informationsverkehr zwischen Logik und Speicher ist als von-Neumann-Flaschenhals bekannt und ist heute eine der Hauptquellen für Ineffizienz.
Da Modelle immer größer werden und die Datenmenge exponentiell wächst, werden die Energiekosten für das bloße Bewegen von Bits größer als die Kosten für das Rechnen selbst. Analysen zeigen, dass ein erheblicher Teil der Energie in Rechenzentren genau für die Datenübertragung innerhalb des Chips, zwischen Chips sowie zum und vom externen Speicher aufgewendet wird. Zudem führt jeder zusätzliche Sprung zwischen den Ebenen der Speicherhierarchie zu Verzögerungen und begrenzt die Gesamtgeschwindigkeit des Systems. Daher richtet sich ein immer größerer Teil der Forschung auf das Konzept des „In-Memory“-Computing und auf die dreidimensionale Integration, die den Datenweg verkürzt.
Standard-CMOS-Chips sind streng in den vorderen und hinteren Teil des Prozesses unterteilt. Im vorderen Teil (Front-End-of-Line) werden aktive Komponenten wie Transistoren und Kondensatoren hergestellt, während der hintere Teil (Back-End-of-Line) dazu dient, Leitungen, Verbindungen und Metallisierungen zu führen, die diese Komponenten zu funktionalen Schaltkreisen verbinden. Obwohl der hintere Teil des Prozesses im Laufe der Jahre erhebliche Verbesserungen erfahren hat, dient er weiterhin primär als „Autobahn für Elektronen“ und nicht als aktive Zone, in der Berechnungen stattfinden.
Das Problem entsteht, wenn wir über den bereits geformten Transistoren im vorderen Teil zusätzliche aktive Schichten aufbauen wollen. Klassische Siliziumtransistoren erfordern hohe Verarbeitungstemperaturen, oft mehrere hundert Grad Celsius, was die darunter liegenden Geräte irreversibel beschädigen oder zerstören würde. Aus diesem Grund blieb das vertikale Stapeln von Logik und Speicher innerhalb desselben Chips, mit einer für moderne KI-Beschleuniger geeigneten Dichte, bisher weitgehend im Bereich der Theorie und Simulationen.
Neue Strategie: aktive Komponenten im hinteren Teil des Chips
Das MIT-Team entschied sich, den üblichen Ansatz „umzudrehen“ und den hinteren Teil des Prozesses als Raum für den Einbau zusätzlicher aktiver Schichten zu nutzen. Anstatt zu versuchen, Silizium erneut bei hohen Temperaturen zu backen, entwickelten die Forscher Transistoren, die bei Temperaturen um 150 Grad Celsius direkt auf die Strukturen des hinteren Teils gefertigt werden können. So entsteht eine zusätzliche Schicht aus Logik und Speicher, die sich über dem bestehenden CMOS-Schaltkreis befindet, diesen aber nicht beschädigt.
Die grundlegende Idee ist, dass auf einem bereits fertigen Chip, auf dem klassische Siliziumtransistoren weiterhin für einen Teil der Arbeit zuständig sind, neue Schichten von Transistoren und Speicher im hinteren Teil hinzugefügt werden. Diese Schichten übernehmen die energieintensivsten Aufgaben – beispielsweise die lokale Datenverarbeitung und Speicherung von Parametern neuronaler Netze – während die Basislogik im vorderen Teil als „Anker“ des gesamten Systems genutzt wird. Das Ergebnis ist eine hybride Architektur, in der sich verschiedene Materialien und Technologien gegenseitig ergänzen.
Damit ein solcher Ansatz gelingt, ist es notwendig, Materialien zu finden, die auch bei sehr kleinen Abmessungen gute elektronische Eigenschaften behalten, sich aber gleichzeitig bei niedrigen Temperaturen abscheiden lassen. Genau hier tritt amorphes Indiumoxid auf den Plan, ein Material, das in den letzten Jahren große Aufmerksamkeit als Kandidat für Transistoren im Back-End-of-Line-Prozess und in der monolithischen 3D-Integration auf sich gezogen hat.
Amorphes Indiumoxid: ein Kanal von zwei Nanometern Dicke
Amorphes Indiumoxid gehört zur Gruppe der amorphen Oxidhalbleiter, Materialien, die eine Kombination aus hoher Ladungsträgermobilität, guter Skalierbarkeit und der Möglichkeit zur Abscheidung in dünnen Schichten bei relativ niedrigen Temperaturen bieten. In der Arbeit des MIT übernimmt dieses Material die Rolle des aktiven Kanals von Transistoren, die im hinteren Teil des Chips gefertigt werden. Der Kanal ist die Schicht, in der die Schlüsselfunktion des Transistors stattfindet – das kontrollierte Ein- und Ausschalten des Elektronenflusses zwischen Quelle (Source) und Senke (Drain).
Den Forschern gelang es, eine Schicht aus amorphen Indiumoxid mit einer Dicke von etwa zwei Nanometern zu bilden, was ungefähr einem Dutzend atomarer Schichten entspricht. In diesem Bereich ultradünner Filme hat jeder Defekt im Materialnetzwerk einen verhältnismäßig großen Einfluss auf das Verhalten des Geräts. Besonders wichtig sind sogenannte Sauerstoffleerstellen – Plätze im Netzwerk, an denen ein Sauerstoffatom fehlt – da genau diese Defekte als Donatorstellen wirken können, die freie Elektronen für die Stromleitung bereitstellen.
Für den korrekten Betrieb des Transistors ist es notwendig, ein Gleichgewicht zu finden: Zu wenige Leerstellen bedeuten, dass der Kanal ein zu schwacher Leiter ist und das Gerät schwer einzuschalten ist, während zu viele Defekte zu Leckströmen, Instabilität und erhöhtem Energieverbrauch im ausgeschalteten Zustand führen. Das MIT-Team widmete daher einen großen Teil der Arbeit der präzisen Kontrolle des Abscheidungsprozesses und der Nachbearbeitung des amorphen Indiumoxids, damit Anzahl und Verteilung der Defekte genau so sind, wie sie für einen stabilen Betrieb im Nanometerbereich benötigt werden.
Das Ergebnis ist ein extrem kleiner Transistor mit einer Kanalschicht von nur wenigen Nanometern, der zuverlässig zwischen Ein- und Aus-Zuständen mit sehr wenig zusätzlicher Energie umschalten kann. Laut den Forschern erreichen solche optimierten Transistoren Leistungen, die mit den derzeit fortschrittlichsten Lösungen ihrer Klasse vergleichbar oder sogar besser sind, bei geringerem Energieverbrauch pro Operation.
In den Transistor integrierter Speicher: ferroelektrisches Hafnium-Zirkonium-Oxid
Auf der Grundlage desselben Ansatzes stellten die Forscher auch Transistoren mit eingebautem Speicher her, ebenfalls im hinteren Teil des Chips. Diese sogenannten Speichertransistoren haben Abmessungen in der Größenordnung von 20 Nanometern und nutzen ferroelektrisches Hafnium-Zirkonium-Oxid als entscheidende Speicherschicht. Es handelt sich um ein Material, das zwei stabile Zustände elektrischer Polarisation beibehalten kann, was es für energieeffiziente, nichtflüchtige Speicher geeignet macht.
Ferroelektrisches Hafnium-Zirkonium-Oxid (HfZrO oder HZO) ist in den letzten zehn Jahren zu einem der Stars der Forschung im Bereich der Speicher der nächsten Generation geworden. Im Gegensatz zu älteren ferroelektrischen Materialien ist diese Verbindung mit dem Standard-CMOS-Prozess kompatibel und kann bei Temperaturen kristallisiert werden, die niedrig genug sind, um bestehende Strukturen im Back-End-of-Line-Prozess nicht zu beschädigen. Aus diesem Grund wird HZO immer häufiger als Kandidat für die Integration ferroelektrischer Speicher direkt auf Logikchips genannt.
In der Demonstration des MIT wurde eine ferroelektrische Schicht aus Hafnium-Zirkonium-Oxid über dem Kanal aus amorphen Indiumoxid hinzugefügt, wodurch ein kompakter Speichertransistor geschaffen wurde. Durch Änderung der Polarisation der ferroelektrischen Schicht ändert sich die effektive Einschaltschwelle des Transistors, was die Speicherung logischer Zustände ohne die Notwendigkeit ständiger Aktualisierung ermöglicht. Ein solcher Ansatz kombiniert die Funktionen von Logik und Speicher im selben physikalischen Element, sodass derselbe Transistor sowohl für die Datenverarbeitung als auch für deren Speicherung genutzt werden kann.
Diese Speichertransistoren zeigen ein extrem schnelles Umschalten der Zustände, in der Größenordnung von zehn Nanosekunden, was so schnell ist, dass es sich den Grenzen der im Experiment verwendeten Messinstrumente nähert. Noch wichtiger ist, dass diese Zustandsänderung bei deutlich niedrigeren Spannungen erreicht wird als bei ähnlichen Geräten, was den gesamten Energieverbrauch zusätzlich senkt.
Energiegewinn: weniger Datenbewegung, mehr Rechnen pro Joule
Die Verbindung von Logik und Speicher in einer vertikal gestapelten Struktur beeinflusst das Energieprofil des Systems dramatisch. Wenn ein Transistor Daten, die er gerade verarbeitet, lokal speichern kann, besteht keine Notwendigkeit, Bits ständig durch den Chip und zum externen Speicher zu senden. Jeder eliminierte Sprung durch die Speicherhierarchie bedeutet weniger Verluste in Leitungen und Verbindungen, weniger Erwärmung und weniger Energieaufwand für die Kühlung.
Für KI-Beschleuniger, in denen dieselben Modellparameter und dieselben Datenblöcke während des Betriebs milliardenfach gelesen und geschrieben werden, kann dieser Unterschied entscheidend sein. Schätzungen globaler Organisationen zeigen, dass der Stromverbrauch von Rechenzentren bis 2030 auf etwa 950 Terawattstunden jährlich steigen könnte, vor allem aufgrund des Wachstums von KI-Workloads. Selbst ein relativ kleiner Prozentsatz an Einsparungen pro Chip, auf dem Niveau von einigen Dutzend Prozent weniger Verbrauch pro Operation, kann sich in erhebliche Einsparungen auf der Ebene ganzer Rechenzentren und Energiesysteme verwandeln.
Der Ansatz des MIT passt daher in eine breitere Strategie der „effizienten KI“, die nicht nur auf erneuerbare Energiequellen und bessere Infrastruktur setzt, sondern auch auf deutlich effizienteres Rechnen in der Siliziumbasis selbst. Durch das vertikale Stapeln von Transistoren und Speicher ist es möglich, mehr Operationen pro Joule Energie zu erreichen, ohne unbedingt den Takt zu erhöhen oder eine immer größere Anzahl konventioneller Kerne hinzuzufügen.
Verbindung mit globalen Trends in der Halbleiterindustrie
Die Arbeit des MIT-Teams knüpft an eine starke Forschungswelle an, die in den letzten Jahren nach Wegen sucht, amorphe Oxidhalbleiter und ferroelektrische Materialien im hinteren Teil des Prozesses für die monolithische 3D-Integration zu nutzen. Zahlreiche akademische Gruppen und Industrielabore haben bereits gezeigt, dass Indiumoxid und verwandte Materialien in ultradünnen Schichten abgeschieden werden können, bei hoher Ladungsträgermobilität und stabilem Betrieb bei geringem Verbrauch.
Parallel dazu werden ferroelektrische Speicher auf Basis von Hafniumoxid und Hafnium-Zirkonium-Oxid intensiv erforscht. Sie bieten nichtflüchtige Datenspeicherung, die Möglichkeit des Betriebs bei niedrigen Spannungen und Kompatibilität mit bestehenden Siliziumtechnologien. Die neuesten Übersichten aus der Literatur zeigen, dass ferroelektrische Transistoren Umschaltzeiten in der Größenordnung weniger Nanosekunden, einen Betrieb mit Spannungspegeln unter fünf Volt und eine Ausdauer von Milliarden Zyklen erreichen können, was sie zu ernsthaften Kandidaten für zukünftige eingebettete Speicher und In-Memory-Computing macht.
Die Demonstration des MIT kombiniert diese Trends in einem System: Sie nutzt amorphes Indiumoxid zum Bau von Niedertemperaturtransistoren im hinteren Teil des Chips und Hafnium-Zirkonium-Oxid zur Implementierung kompakter ferroelektrischer Speicher. Zudem haben die Forscher in Zusammenarbeit mit Partnern auch Leistungsmodelle dieser Transistoren entwickelt, was ein entscheidender Schritt dahin ist, solche Elemente in größere Schaltkreise einzubauen, wie etwa Beschleuniger für neuronale Netze oder spezialisierte Prozessoren für Computer Vision.
Vom Forschungsprototyp zur industriellen Anwendung
Die neuen Transistoren und Speicherelemente wurden auf dem angesehenen IEEE International Electron Devices Meeting (IEDM) vorgestellt, das als einer der wichtigsten Orte gilt, an dem Industrie und akademische Gemeinschaft Ergebnisse über die Zukunft der Halbleitertechnologie austauschen. Die Tatsache, dass an der Arbeit Forscher des MIT, der University of Waterloo und des Industriegiganten Samsung Electronics beteiligt waren, zeigt, dass die Idee des vertikalen Stapelns von Logik und Speicher im hinteren Teil des Chips bereits auch außerhalb des Labors sehr ernsthaft in Erwägung gezogen wird.
Der Weg vom Forschungsprototyp zum kommerziellen Produkt ist dennoch lang. Es ist notwendig, die Zuverlässigkeit des Geräts über Milliarden von Zyklen zu beweisen, zu zeigen, dass neue Materialien reproduzierbar in großen Serien gefertigt werden können, und Designwerkzeuge zu integrieren, die es Ingenieuren ermöglichen, diese Transistoren und Speicher in realen Projekten zu nutzen. Die Leistungsmodellierung, an der das MIT und Partner arbeiten, ist einer der ersten Schritte: Sie ermöglicht es, bereits heute Schaltkreise zu simulieren, die solche Elemente nutzen würden, und ihren Nutzen im Vergleich zu klassischen Architekturen abzuschätzen.
Die Halbleiterindustrie erforscht gleichzeitig auch andere Ansätze zum dreidimensionalen Stapeln – von fortschrittlichen Speichertechnologien bis hin zu logischen Transistoren, die in komplementären Strukturen übereinander gestapelt werden. Lösungen, die jedoch in bestehende CMOS-Prozesse integriert werden können, ohne drastische Änderungen in den Produktionsstätten, haben die größten Chancen auf eine schnelle Annahme. In diesem Sinne haben amorphe Oxidhalbleiter und Hafnium-Zirkonium-Oxid einen wichtigen Vorteil, da sie bereits in die bestehende Infrastruktur passen.
Nächste Schritte: Skalierung, Optimierung und neue Funktionalitäten
Das Forschungsteam des MIT hat bereits angekündigt, dass die nächsten Schritte die weitere Verbesserung der Leistung der im hinteren Teil gefertigten Transistoren sowie eine feinere Kontrolle der Eigenschaften des ferroelektrischen Hafnium-Zirkonium-Oxids umfassen. Ziel ist es, gleichzeitig die Arbeitsgeschwindigkeit zu erhöhen, die benötigten Spannungen zu senken und die Stabilität während des Langzeitbetriebs beizubehalten. Dabei wird auch das Verständnis der fundamentalen Physik auf der Ebene einzelner ferroelektrischer Domänen in Nanometerstrukturen eine wichtige Rolle spielen.
Besonders interessant ist, dass diese winzigen Speichertransistoren nicht nur als funktionale Elemente dienen, sondern auch als experimentelle Plattform zur Untersuchung der Physik von Ferroelektrika in extrem skalierten Dimensionen. Durch die Beobachtung, wie sich Domänen in Strukturen von nur wenigen Dutzend Nanometern Größe verhalten, können Forscher theoretische Modelle testen und neue Wege ersinnen, wie Ferroelektrizität in Computern, Sensoren oder neuromorphen Schaltkreisen genutzt werden kann.
Im weiteren Sinne ist die Arbeit des MIT-Teams Teil eines globalen Wettlaufs um neue Materialien und Architekturen, die Silizium ersetzen oder aufrüsten könnten, wenn wir uns den physikalischen Grenzen seiner Skalierung nähern. Die Kombination aus dreidimensionaler Integration, neuen Halbleitern und ferroelektrischen Speichern bietet einen Weg zu Chips, die gleichzeitig mehr Rechenleistung, geringeren Energieverbrauch und eine flexiblere Datenorganisation bieten – genau das, was benötigt wird, damit sich generative künstliche Intelligenz und andere datenintensive Tools entwickeln können, ohne eine Energiekrise auszulösen.
Obwohl Zeit vergehen wird, bis solche Transistoren und Speicher in Massenprodukten zum Leben erweckt werden, ist die Richtung klar: Zukünftige Generationen von Computersystemen werden zunehmend geschichteten Strukturen ähneln, in denen Daten dort verarbeitet werden, wo sie entstehen, und die Grenze zwischen Logik und Speicher allmählich verschwindet. In diesem Szenario können Lösungen wie die Plattform des MIT zum Stapeln von Transistoren und Speicher im hinteren Teil des Chips eine wichtige Rolle bei der Aufrechterhaltung des Wachstums der Rechenleistung spielen, bei gleichzeitiger Kontrolle des Energieverbrauchs.
Unterkünfte in der Nähe finden
Erstellungszeitpunkt: 7 Stunden zuvor