Obliczenia oparte na sztucznej inteligencji wchodzą w fazę, w której efektywność energetyczna nie może być już traktowana jako temat poboczny. Trenowanie i wykonywanie modeli generatywnej sztucznej inteligencji, uczenia głębokiego i wizji komputerowej pcha zużycie energii elektrycznej przez centra danych w stronę poziomów porównywalnych ze zużyciem całych państw. Szacunki pokazują, że centra danych w 2024 roku zużyły około 415 terawatogodzin energii elektrycznej, a do końca dekady liczba ta może się ponad dwukrotnie zwiększyć. W tym kontekście każdy wat zaoszczędzony na poziomie czipa staje się strategicznie ważny.
Grupa naukowców z Massachusetts Institute of Technology (MIT) opracowała więc nową platformę integracji elektroniki, która próbuje rozwiązać problem tam, gdzie on powstaje – w samej architekturze czipa. Zamiast trzymać komponenty logiczne i pamięć oddzielnie, jak w klasycznych układach, układają je wertykalnie w kompaktowy, trójwymiarowy „stos” zbudowany nad już istniejącym obwodem. Nowe podejście umożliwia umieszczenie tranzystorów i elementów pamięci jeden nad drugim w tylnej części czipa, co drastycznie skraca drogę, którą podróżują dane i zmniejsza straty energii.
Kluczem do tej technologii jest połączenie nowego materiału – amorficznego tlenku indu – oraz starannie zoptymalizowanego procesu produkcji, który działa w znacznie niższych temperaturach niż klasyczna technologia CMOS. Otwiera to możliwość nadbudowy już gotowych układów krzemowych dodatkowymi „piętrami” logiki i pamięci, bez niszczenia tranzystorów wykonanych w przedniej części linii procesu. Rezultatem jest platforma elektroniczna, która obiecuje szybsze obliczenia, mniejsze zużycie energii i większą gęstość integracji, szczególnie atrakcyjna dla zastosowań takich jak generatywna AI, uczenie głębokie i przetwarzanie obrazu w czasie rzeczywistym.
Wąskie gardło klasycznej architektury: rozdzielona logika i pamięć
Większość dzisiejszych systemów komputerowych nadal polega na architekturze, która umieszcza logikę (procesor) i pamięć w fizycznie oddzielnych blokach. Tranzystory logiczne wykonują instrukcje, podczas gdy elementy pamięci – czy to SRAM, DRAM czy flash – służą do przechowywania danych i parametrów modelu. Za każdym razem, gdy procesor potrzebuje danych, muszą one „podróżować” przez sieć przewodów, połączeń i magistral. Ten ciągły ruch informacji między logiką a pamięcią znany jest jako wąskie gardło von Neumanna i jest dziś jednym z głównych źródeł nieefektywności.
W miarę jak modele stają się coraz większe, a ilość danych rośnie wykładniczo, koszt energetyczny samego przesuwania bitów staje się większy niż koszt obliczeń. Analizy pokazują, że znaczna część energii w centrach danych idzie właśnie na przesył danych wewnątrz czipa, między czipami oraz do i z pamięci zewnętrznej. Ponadto, każdy dodatkowy przeskok między poziomami hierarchii pamięci wprowadza opóźnienia i ogranicza ogólną prędkość systemu. Dlatego coraz większa część badań kieruje się w stronę koncepcji obliczeń „w pamięci” i w stronę trójwymiarowej integracji, która skraca drogę danych.
Standardowe czipy CMOS są ściśle podzielone na przednią i tylną część procesu. W części przedniej (front-end-of-line) wytwarzane są aktywne komponenty, takie jak tranzystory i kondensatory, podczas gdy część tylna (back-end-of-line) służy do prowadzenia przewodów, połączeń i metalizacji, które łączą te komponenty w funkcjonalne układy. Chociaż na przestrzeni lat tylna część procesu doczekała się znacznych ulepszeń, nadal służy ona głównie jako „autostrada dla elektronów”, a nie jako aktywna strefa, w której odbywają się obliczenia.
Problem powstaje, gdy chcemy nad już uformowanymi tranzystorami w części przedniej zbudować dodatkowe warstwy aktywne. Klasyczne tranzystory krzemowe wymagają wysokich temperatur obróbki, często wielu setek stopni Celsjusza, co nieodwracalnie uszkodziłoby lub zniszczyło urządzenia znajdujące się poniżej. Z tego powodu wertykalne układanie logiki i pamięci wewnątrz tego samego czipa, z gęstością odpowiednią dla nowoczesnych akceleratorów AI, do tej pory pozostawało głównie w domenie teorii i symulacji.
Nowa strategia: aktywne komponenty w tylnej części czipa
Zespół z MIT postanowił „odwrócić” typowe podejście i wykorzystać tylną część procesu jako przestrzeń do wbudowania dodatkowych warstw aktywnych. Zamiast próbować ponownie wypiekać krzem w wysokich temperaturach, naukowcy opracowali tranzystory, które można wytworzyć w temperaturach około 150 stopni Celsjusza, bezpośrednio na strukturach części tylnej. Tak powstaje dodatkowa warstwa logiki i pamięci, która znajduje się nad istniejącym układem CMOS, ale go nie uszkadza.
Podstawowa idea jest taka, by na już gotowy czip, na którym klasyczne tranzystory krzemowe nadal są odpowiedzialne za część pracy, dodać nowe warstwy tranzystorów i pamięci w części tylnej. Warstwy te przejmują najbardziej energochłonne zadania – na przykład lokalne przetwarzanie danych i przechowywanie parametrów sieci neuronowych – podczas gdy podstawowa logika w części przedniej jest wykorzystywana jako „kotwica” całego systemu. Rezultatem jest hybrydowa architektura, w której różne materiały i technologie wzajemnie się uzupełniają.
Aby takie podejście się udało, konieczne jest znalezienie materiałów, które zachowują dobre charakterystyki elektroniczne nawet przy bardzo małych wymiarach, ale jednocześnie mogą być osadzane w niskich temperaturach. Właśnie tu na scenę wkracza amorficzny tlenek indu, materiał, który w ostatnich latach przyciąga dużą uwagę jako kandydat na tranzystory w tylnej części linii procesu i w monolitycznej integracji 3D.
Amorficzny tlenek indu: kanał o grubości dwóch nanometrów
Amorficzny tlenek indu należy do grupy amorficznych półprzewodników tlenkowych, materiałów oferujących kombinację wysokiej ruchliwości ładunków, dobrego skalowania i możliwości osadzania w cienkich warstwach przy stosunkowo niskich temperaturach. W pracy MIT ten materiał przejmuje rolę aktywnego kanału tranzystorów wykonanych w tylnej części czipa. Kanał to warstwa, w której odbywa się kluczowa funkcja tranzystora – kontrolowane włączanie i wyłączanie przepływu elektronów między źródłem a drenem.
Naukowcom udało się uformować warstwę amorficznego tlenku indu o grubości około dwóch nanometrów, co stanowi mniej więcej kilkanaście warstw atomowych. W tym reżimie ultra cienkich filmów każdy defekt w sieci materiału ma relatywnie duży wpływ na zachowanie urządzenia. Szczególnie ważne są tzw. wakancje tlenowe – miejsca w sieci, gdzie brakuje atomu tlenu – ponieważ właśnie te defekty mogą działać jako miejsca donorowe, zapewniające wolne elektrony potrzebne do przewodzenia prądu.
Dla poprawnego działania tranzystora konieczne jest znalezienie równowagi: zbyt mało wakancji oznacza, że kanał jest zbyt słabym przewodnikiem i urządzenie ciężko włączyć, podczas gdy zbyt dużo defektów prowadzi do wycieku prądu, niestabilności i zwiększonego zużycia energii w stanie wyłączonym. Zespół z MIT poświęcił więc dużą część pracy na precyzyjną kontrolę procesu osadzania i późniejszej obróbki amorficznego tlenku indu, aby liczba i rozkład defektów były dokładnie takie, jakich potrzeba do stabilnej pracy w skalach nanometrowych.
Rezultatem jest niezwykle mały tranzystor z warstwą kanału o zaledwie kilku nanometrach, który może niezawodnie przełączać się między stanami włączenia i wyłączenia przy bardzo niewielkiej dodatkowej energii. Według naukowców, tak zoptymalizowane tranzystory osiągają wydajność porównywalną, a nawet lepszą od obecnie najbardziej zaawansowanych rozwiązań w swojej klasie, przy mniejszym zużyciu energii na operację.
Pamięć zintegrowana w tranzystorze: ferroelektryczny tlenek hafnu i cyrkonu
Na bazie tego samego podejścia, naukowcy stworzyli również tranzystory z wbudowaną pamięcią, również w tylnej części czipa. Te tak zwane tranzystory pamięciowe mają wymiary rzędu wielkości 20 nanometrów, a jako kluczową warstwę pamięci wykorzystują ferroelektryczny tlenek hafnu i cyrkonu. Jest to materiał, który może utrzymać dwa stabilne stany polaryzacji elektrycznej, co czyni go odpowiednim dla niskoenergetycznych, nieulotnych pamięci.
Ferroelektryczny tlenek hafnu i cyrkonu (HfZrO lub HZO) w ciągu ostatnich dziesięciu lat stał się jedną z gwiazd badań w dziedzinie pamięci nowej generacji. W przeciwieństwie do starszych materiałów ferroelektrycznych, ten związek jest kompatybilny ze standardowym procesem CMOS i może krystalizować w temperaturach, które są wystarczająco niskie, by nie uszkodzić istniejących struktur w tylnej części linii procesu. Z tego powodu HZO jest coraz częściej wymieniany jako kandydat do integracji pamięci ferroelektrycznych bezpośrednio na czipach logicznych.
W demonstracji MIT ferroelektryczna warstwa tlenku hafnu i cyrkonu została dodana nad kanałem z amorficznego tlenku indu, dzięki czemu stworzono kompaktowy tranzystor pamięciowy. Poprzez zmianę polaryzacji warstwy ferroelektrycznej zmienia się efektywny próg włączenia tranzystora, co umożliwia przechowywanie stanów logicznych bez konieczności ciągłego odświeżania. Takie podejście łączy funkcje logiki i pamięci w tym samym elemencie fizycznym, więc ten sam tranzystor może być wykorzystywany zarówno do przetwarzania danych, jak i do ich przechowywania.
Te tranzystory pamięciowe wykazują niezwykle szybkie przełączanie stanów, rzędu wielkości dziesięciu nanosekund, co jest tak szybkie, że zbliża się do ograniczeń instrumentów pomiarowych użytych w eksperymencie. Co ważniejsze, ta zmiana stanu jest osiągana przy znacznie niższych napięciach niż w przypadku podobnych urządzeń, co dodatkowo zmniejsza całkowite zużycie energii.
Zysk energetyczny: mniej przemieszczania danych, więcej obliczeń na dżul
Połączenie logiki i pamięci w wertykalnie ułożonej strukturze dramatycznie wpływa na profil energetyczny systemu. Kiedy tranzystor może lokalnie przechować daną, którą właśnie przetwarza, nie ma potrzeby, by bity były nieustannie wysyłane przez czip i do pamięci zewnętrznej. Każdy wyeliminowany przeskok przez hierarchię pamięci oznacza mniej strat w przewodach i połączeniach, mniejsze nagrzewanie i mniej energii zużywanej na chłodzenie.
Dla akceleratorów AI, w których te same parametry modelu i te same bloki danych są czytane i zapisywane miliardy razy podczas pracy, ta różnica może być decydująca. Szacunki globalnych organizacji pokazują, że zużycie energii elektrycznej przez centra danych może do 2030 roku wzrosnąć do około 950 terawatogodzin rocznie, przede wszystkim z powodu wzrostu obciążeń roboczych AI. Nawet stosunkowo niewielki procent oszczędności na czip, na poziomie kilkudziesięciu procent mniejszego zużycia na operację, może przekształcić się w znaczne oszczędności na poziomie całych centrów danych i systemów energetycznych.
Podejście MIT wpisuje się zatem w szerszą strategię „efektywnego AI”, w której liczy się nie tylko na odnawialne źródła energii i lepszą infrastrukturę, ale także na znacznie efektywniejsze obliczenia w samej bazie krzemowej. Dzięki wertykalnemu układaniu tranzystorów i pamięci możliwe jest osiągnięcie większej liczby operacji na dżul energii, bez konieczności zwiększania taktowania czy dodawania coraz większej liczby konwencjonalnych rdzeni.
Łączenie z globalnymi trendami w przemyśle półprzewodnikowym
Praca zespołu MIT nawiązuje do silnej fali badawczej, która w ostatnich latach szuka sposobów na wykorzystanie amorficznych półprzewodników tlenkowych i materiałów ferroelektrycznych w tylnej części procesu do monolitycznej integracji 3D. Liczne grupy akademickie i laboratoria przemysłowe już pokazały, że tlenek indu i pokrewne materiały mogą być osadzane w ultracienkich warstwach, przy wysokiej ruchliwości nośników ładunku i stabilnej pracy przy niskim zużyciu.
Równolegle intensywnie badane są pamięci ferroelektryczne oparte na tlenku hafnu i tlenku hafnu i cyrkonu. Oferują one nieulotne przechowywanie danych, możliwość pracy przy niskich napięciach i kompatybilność z istniejącymi technologiami krzemowymi. Najnowsze przeglądy literatury pokazują, że tranzystory ferroelektryczne mogą osiągać czasy przełączania rzędu kilku nanosekund, pracę z poziomami napięcia poniżej pięciu woltów i wytrzymałość miliardów cykli, co czyni je poważnymi kandydatami na przyszłe pamięci wbudowane i obliczenia w pamięci.
Demonstracja MIT łączy te trendy w jednym systemie: wykorzystuje amorficzny tlenek indu do budowy niskotemperaturowych tranzystorów w tylnej części czipa i tlenek hafnu i cyrkonu do implementacji kompaktowej pamięci ferroelektrycznej. Ponadto, naukowcy we współpracy z partnerami opracowali również modele wydajności tych tranzystorów, co jest kluczowym krokiem w stronę tego, by takie elementy wbudować w większe układy, takie jak akceleratory dla sieci neuronowych czy specjalizowane procesory do wizji komputerowej.
Od prototypu badawczego do zastosowania przemysłowego
Nowe tranzystory i elementy pamięci zostały zaprezentowane na prestiżowym spotkaniu IEEE International Electron Devices Meeting (IEDM), które uważa się za jedno z głównych miejsc, w których przemysł i społeczność akademicka wymieniają się wynikami na temat przyszłości technologii półprzewodnikowej. Fakt, że w pracy brali udział naukowcy z MIT, University of Waterloo i giganta przemysłowego Samsung Electronics, pokazuje, że idea wertykalnego układania logiki i pamięci w tylnej części czipa jest już bardzo poważnie rozważana również poza laboratorium.
Droga od prototypu badawczego do komercyjnego produktu jest jednak długa. Konieczne jest udowodnienie niezawodności urządzenia na miliardach cykli, pokazanie, że nowe materiały mogą być powtarzalnie wytwarzane w dużych seriach oraz zintegrowanie narzędzi projektowych, które umożliwią inżynierom wykorzystanie tych tranzystorów i pamięci w rzeczywistych projektach. Modelowanie wydajności, nad którym pracują MIT i partnerzy, jest jednym z pierwszych kroków: umożliwia ono już dziś symulowanie układów, które korzystałyby z takich elementów i oszacowanie ich korzyści w stosunku do klasycznych architektur.
Przemysł półprzewodnikowy jednocześnie bada również inne podejścia do trójwymiarowego układania – od zaawansowanych technologii pamięci po tranzystory logiczne, które układa się jeden na drugim w strukturach komplementarnych. Jednak rozwiązania, które można zintegrować w istniejących procesach CMOS, bez drastycznych zmian w zakładach produkcyjnych, mają największe szanse na szybką adopcję. W tym sensie amorficzne półprzewodniki tlenkowe i tlenek hafnu i cyrkonu mają ważną przewagę, ponieważ już wpisują się w istniejącą infrastrukturę.
Następne kroki: skalowanie, optymalizacja i nowe funkcjonalności
Zespół badawczy z MIT już zapowiedział, że kolejne kroki obejmują dalszą poprawę wydajności tranzystorów wykonanych w tylnej części, a także dokładniejszą kontrolę właściwości ferroelektrycznego tlenku hafnu i cyrkonu. Celem jest jednoczesne zwiększenie prędkości pracy, zmniejszenie wymaganych napięć i zachowanie stabilności podczas długotrwałej pracy. Przy tym ważną rolę będzie miało również zrozumienie fundamentalnej fizyki na poziomie poszczególnych domen ferroelektrycznych w strukturach nanometrowych.
Szczególnie interesujące jest to, że te miniaturowe tranzystory pamięciowe służą nie tylko jako elementy funkcjonalne, ale także jako platforma eksperymentalna do badania fizyki ferroelektryków w ekstremalnie skalowanych wymiarach. Obserwując, jak domeny zachowują się w strukturach o wielkości zaledwie kilkudziesięciu nanometrów, naukowcy mogą testować modele teoretyczne i wymyślać nowe sposoby, jak wykorzystać ferroelektryczność w obliczeniach, czujnikach czy układach neuromorficznych.
W szerszym sensie praca zespołu MIT jest częścią globalnego wyścigu po nowe materiały i architektury, które mogłyby zastąpić lub nadbudować krzem, gdy zbliżymy się do fizycznych granic jego skalowania. Kombinacja trójwymiarowej integracji, nowych półprzewodników i pamięci ferroelektrycznych oferuje drogę ku czipom, które jednocześnie zapewniają większą moc obliczeniową, mniejsze zużycie energii i bardziej elastyczną organizację danych – dokładnie to, co jest potrzebne, by generatywna sztuczna inteligencja i inne narzędzia intensywnie przetwarzające dane mogły się rozwijać bez wywoływania kryzysu energetycznego.
Chociaż minie czas, zanim takie tranzystory i pamięci zaistnieją w masowych produktach, kierunek jest jasny: przyszłe generacje systemów komputerowych będą coraz bardziej przypominać warstwowe struktury, w których dane są przetwarzane tam, gdzie powstają, a granica między logiką a pamięcią stopniowo zanika. W tym scenariuszu rozwiązania takie jak platforma MIT do układania tranzystorów i pamięci w tylnej części czipa mogą odegrać ważną rolę w utrzymaniu wzrostu mocy obliczeniowej, przy jednoczesnym trzymaniu pod kontrolą zużycia energii.
Czas utworzenia: 6 godzin temu