Sandook z MIT pokazuje, jak centra danych mogą uzyskać większą wydajność bez nowego sprzętu
Badacze z MIT zaprezentowali system Sandook, rozwiązanie programowe, które mogłoby pomóc centrom danych wydobyć zauważalnie większą wydajność z istniejących dysków SSD bez kupowania dodatkowego sprzętu. To podejście, które celuje w jeden z najdroższych i najmniej widocznych problemów nowoczesnej infrastruktury cyfrowej: fakt, że duże systemy przechowywania danych, nawet gdy są technicznie sprawne i połączone sieciowo do wspólnego użytku, często działają poniżej swojego rzeczywistego potencjału. Według MIT News system został zaprojektowany tak, aby w czasie rzeczywistym rozdzielać obciążenia robocze między wiele urządzeń pamięci masowej, a przy tym ograniczać skutki spowolnień wynikających z różnic między samymi dyskami SSD, z konfliktów między odczytem i zapisem oraz z procesu tak zwanego „garbage collection”. Badacze twierdzą, że takie podejście może przy realnych zadaniach przynieść bardzo namacalny wzrost szybkości, a w niektórych scenariuszach niemal podwoić wydajność w porównaniu ze zwykłymi statycznymi metodami rozdziału pracy.
Dlaczego problem jest ważny dla centrów danych
Działanie centrów danych nie opiera się dziś już tylko na procesorach i sieci. Równie ważna stała się szybkość dostępu do danych, zwłaszcza w trenowaniu modeli sztucznej inteligencji, pracy baz danych, przetwarzaniu dużych ilości treści użytkowników i przechowywaniu plików, które są stale odczytywane i uzupełniane. W praktyce dlatego wiele dysków SSD często łączy się we wspólną pulę, do której ma dostęp wiele aplikacji. Takie „pooling” urządzeń ma jasną logikę ekonomiczną: nie każda aplikacja musi mieć własny dysk o pełnej pojemności, jeśli zasób można współdzielić przez sieć. Problem polega jednak na tym, że nie wszystkie dyski SSD reagują tak samo pod takim samym obciążeniem, więc jeden wolniejszy lub chwilowo przeciążony nośnik może obniżać łączną wydajność całego zestawu. Właśnie ta luka między nominalną pojemnością a rzeczywiście osiąganą szybkością stanowi przestrzeń, w której Sandook próbuje zrobić różnicę.
MIT w swoim komunikacie podkreśla, że w istniejących środowiskach znaczna część pojemności urządzeń nadal nie jest wykorzystywana efektywnie, i to nawet wtedy, gdy urządzenia są formalnie połączone dla większego wykorzystania. Innymi słowy, sam fakt, że dyski SSD są połączone we wspólny system, nie oznacza, że centrum danych automatycznie uzyska optymalny wynik. Jeśli dyski zostały kupione w różnych okresach, od różnych producentów, z różnym stopniem zużycia i różnymi pojemnościami, ich zachowanie pod obciążeniem musi się różnić. Gdy doda się do tego wewnętrzne procesy samych dysków SSD, staje się jasne, dlaczego klasyczny, równomierny rozdział zadań często nie wystarcza.
Trzy źródła spowolnień, które system próbuje opanować
Według opisu badań Sandook został opracowany tak, aby jednocześnie rozwiązywać trzy główne źródła zmienności wydajności. Pierwszym są różnice między samymi dyskami SSD. W prawdziwych centrach danych sprzęt nie zawsze kupuje się naraz i niekoniecznie pochodzi on z tej samej serii lub od tego samego producenta. Z czasem niektóre dyski stają się bardziej zużyte, niektóre pracują pod większym obciążeniem, a niektóre mają odmienne cechy techniczne. Oznacza to, że nawet gdy administrator przydzieli formalnie tę samą pracę każdemu urządzeniu, końcowy wynik nie będzie taki sam.
Drugi problem wynika z jednoczesnego odczytu i zapisu na tym samym dysku SSD. Gdy urządzenie musi zapisać nowe dane, często wcześniej musi usunąć część istniejących bloków. Ten proces może spowolnić operacje odczytu, które w tym samym momencie odbywają się na tym samym urządzeniu. W środowiskach, w których aplikacje wymagają przewidywalnych opóźnień, takie zakłócenia mogą być bardzo kosztowne. Trzecim źródłem spowolnienia jest „garbage collection”, wewnętrzny proces zbierania i usuwania przestarzałych danych w celu zwolnienia miejsca. Proces ten, jak podkreślają autorzy, uruchamia się w odstępach, których operator centrum danych nie może bezpośrednio kontrolować, a gdy się rozpocznie, może nagle spowolnić pracę dysku.
Właśnie ta kombinacja krótkoterminowych i długoterminowych przyczyn spadków wydajności sprawia, że problem jest szczególnie uciążliwy. Niektóre spowolnienia pojawiają się nagle i trwają krótko, podczas gdy inne rozwijają się miesiącami wraz ze zużyciem urządzeń. Jeśli system zarządzania obserwuje tylko jedną przyczynę, może łatwo przeoczyć drugą. Dlatego badacze twierdzą, że przewaga Sandooka polega na tym, że nie próbuje leczyć tylko jednego objawu, lecz obserwuje całość zachowania stosu pamięci masowej.
Architektura dwuwarstwowa: obraz globalny i reakcja lokalna
Centralną techniczną ideą systemu jest dwuwarstwowa architektura zarządzania. Na górze znajduje się globalny harmonogramista, który widzi szerszy obraz całego zestawu urządzeń i decyduje, który dysk SSD otrzyma jakie zadania. Na niższym poziomie znajdują się lokalni harmonogramiści na poszczególnych maszynach, którzy mogą bardzo szybko reagować, gdy jakieś urządzenie zaczyna zostawać w tyle lub nagle się zatyka. W ten sposób próbuje się połączyć to, co w dużych systemach często trudno pogodzić: planowanie strategiczne na poziomie całego centrum danych i natychmiastową reakcję operacyjną na problem, który pojawia się w ułamku sekundy.
MIT podaje, że Sandook ogranicza zakłócenia między odczytem i zapisem, rotując dyski SSD, których pojedyncza aplikacja używa do tych dwóch rodzajów operacji. Zmniejsza to prawdopodobieństwo, że odczyt i zapis zderzą się na tym samym urządzeniu w tym samym momencie. Ponadto system profiluje typowe zachowanie każdego dysku SSD, aby móc rozpoznać, kiedy określone urządzenie prawdopodobnie zwalnia z powodu garbage collection. Gdy wykryje taką sytuację, przekierowuje część obciążenia na inne urządzenia, dopóki dotknięty problemem dysk SSD się nie ustabilizuje. Istotą podejścia nie jest całkowite „wyłączenie” problematycznego dysku, lecz tymczasowe zmniejszenie jego obciążenia, a następnie stopniowe przywrócenie go do pełnej pracy, gdy okaże się, że ponownie może przyjąć więcej zadań.
Taki model jest szczególnie ważny, ponieważ różne rodzaje zmienności zachodzą w różnych skalach czasowych. Garbage collection może wywołać nagły spadek wydajności, podczas gdy zużycie urządzenia powoduje wolniejsze, kumulacyjne spowolnienie. Globalny kontroler może uwzględnić długoterminowy profil urządzenia, a lokalny harmonogramista może zareagować na bieżący zastój. W teorii to właśnie to połączenie daje systemowi elastyczność, której nie mają prostsze modele rozdziału.
Wyniki testów: od baz danych po trenowanie modeli AI
Badacze testowali Sandook na zestawie 10 dysków SSD i obserwowali zachowanie systemu w czterech różnych rodzajach zadań: pracy bazy danych, trenowaniu modeli uczenia maszynowego, kompresji obrazów i przechowywaniu danych użytkowników. Według komunikatu MIT wzrost przepustowości na aplikację wynosił od 12 do 94 procent w porównaniu z metodami statycznymi, podczas gdy całkowite wykorzystanie pojemności dysków SSD wzrosło o 23 procent. Autorzy podają również, że system umożliwił dyskom SSD osiągnięcie 95 procent ich teoretycznego maksimum wydajności, i to bez specjalizowanego sprzętu lub dostosowań, które musiałyby zostać wykonane specjalnie dla pojedynczej aplikacji.
Liczby te zasługują na uważną lekturę. Nie oznaczają one, że każde centrum danych automatycznie uzyska dwukrotnie większą wydajność we wszystkich scenariuszach, lecz że w warunkach testowych, przy zadaniach przypominających rzeczywiste obciążenia, programowe podejście do inteligentniejszego rozdziału pracy dało bardzo mierzalne wyniki. To ważne, ponieważ w praktyce inwestycje w infrastrukturę są często postrzegane przez pryzmat zakupu nowego sprzętu. Sandook sugeruje, że przynajmniej część korzyści można osiągnąć także na poziomie zarządzania istniejącymi zasobami, co jest szczególnie ważne dla operatorów w okresie wzrostu kosztów energii i presji na zrównoważony rozwój.
Mniej odpadów, większe wykorzystanie
Jednym z najbardziej uderzających akcentów w komunikacie MIT jest nie tylko aspekt techniczny, lecz także ekonomiczny i środowiskowy. Główna autorka pracy, Gohar Irfan Chaudhry, ostrzegła, że problemy w infrastrukturze obliczeniowej zbyt często rozwiązuje się po prostu przez dodawanie kolejnych zasobów, mimo że w długim okresie nie jest to zrównoważone. Takie podejście oznacza większe wydatki pieniędzy, więcej zużytych materiałów i krótszy efektywny czas życia drogiego sprzętu, który został już wyprodukowany. W tym sensie Sandook wpisuje się w szerszy trend rozwiązań technologicznych, które nie wymagają koniecznie nowej generacji urządzeń, lecz próbują wydobyć maksimum z istniejących systemów, zanim sięgnie się po wymianę.
Dla branży centrów danych nie jest to temat marginalny. Dyski SSD są szybkie, ale są też drogie, a przy dużej skali nawet stosunkowo małe poprawy wykorzystania mogą oznaczać oszczędności liczone w znaczących kwotach. Gdy doda się do tego fakt, że nowoczesne centra danych już niosą dużą część ciężaru gospodarki cyfrowej, od usług internetowych po generatywną sztuczną inteligencję, staje się jasne, dlaczego każdy wzrost efektywności jest interesujący zarówno z biznesowego, jak i regulacyjnego punktu widzenia. Mniejszy zakup nowego sprzętu oznacza nie tylko niższe koszty kapitałowe, ale może też oznaczać mniejszy ślad węglowy w całym cyklu życia infrastruktury.
Bez specjalizowanego sprzętu, ale nie bez poważnego kontekstu
Ważnym elementem pracy jest również twierdzenie, że do zastosowania tego podejścia nie jest potrzebny specjalizowany sprzęt. Zwiększa to praktyczną atrakcyjność rozwiązania, ponieważ wiele badań pozostaje ograniczonych do laboratorium właśnie dlatego, że wymagają specjalnego typu sprzętu lub kosztownych przeróbek istniejącej infrastruktury. Jednocześnie dostępne dane pokazują, że Sandook był rozwijany i oceniany w poważnym środowisku technicznym. Na publicznie dostępnej stronie projektu w GitHubie podano, że w eksperymentach wykorzystano dyski NVMe SSD Samsung PM1725a i Western Digital DC SN200, kartę sieciową Mellanox ConnectX-6 100 GbE, procesory Intel Xeon E5-2680 v4 oraz Ubuntu 23.04 z jądrem Linux 6.5. Takie szczegóły nie oznaczają, że rozwiązanie jest zarezerwowane wyłącznie dla identycznej konfiguracji, ale pokazują, że nie chodzi o abstrakcyjną symulację bez kontaktu z rzeczywistymi wymaganiami infrastrukturalnymi.
Publicznie opublikowane repozytorium projektu wskazuje również, że badacze chcą przybliżyć rozwiązanie społeczności specjalistów od systemów i sieci, a nie pozostawiać go jedynie na poziomie pracy konferencyjnej. Ma to znaczenie także dlatego, że centra danych często szukają technologii, które można wdrażać i testować stopniowo, a nie tylko pomysłów, które dobrze wyglądają na wykresie. Otwartość implementacji nie gwarantuje zastosowania komercyjnego, ale ułatwia techniczną weryfikację i porównanie z innymi podejściami.
Potwierdzenie konferencyjne i szerszy kontekst ekspercki
Praca zatytułowana
Unleashing the Potential of Datacenter SSDs by Taming Performance Variability została przyjęta do prezentacji na sympozjum USENIX NSDI 2026, jednym z ważniejszych międzynarodowych spotkań poświęconych projektowaniu i implementacji systemów sieciowych i rozproszonych. Według oficjalnej strony konferencji NSDI 2026 odbywa się od 4 do 6 maja 2026 roku w Renton w stanie Waszyngton. Sam fakt przyjęcia pracy nie oznacza, że technologia jest już standardem przemysłowym, ale oznacza, że przeszła istotny ekspercki proces selekcji w społeczności zajmującej się infrastrukturą internetu, chmury i dużych systemów obliczeniowych.
Dodatkowego ciężaru tej historii nadaje także reakcja spoza zespołu autorów. MIT przytacza wypowiedź Josha Frieda, inżyniera oprogramowania w Google i przyszłego profesora na Uniwersytecie Pensylwanii, który nie brał udziału w badaniu. Ocenia on, że pamięć flash jest kluczową technologią nowoczesnych centrów danych, ale wspólne współdzielenie tego zasobu między obciążeniami roboczymi o bardzo różnych wymaganiach wciąż pozostaje otwartym problemem. Według jego oceny ta praca wyraźnie przesuwa granicę naprzód dzięki praktycznemu rozwiązaniu gotowemu do wdrożenia, przybliżając pamięć flash do jej pełnego potencjału w chmurach produkcyjnych. Takie wypowiedzi same w sobie nie są dowodem sukcesu, ale pokazują, że temat ma szerszy oddźwięk w środowisku zawodowym.
Co dalej
Badacze zapowiedzieli, że w przyszłych pracach chcą wykorzystać nowe protokoły dostępne na nowszych dyskach SSD, które dają operatorom większą kontrolę nad rozmieszczeniem danych. Poza tym chcą wykorzystać przewidywalność obciążeń w systemach sztucznej inteligencji, aby dodatkowo zwiększyć efektywność działania dysków SSD. To logiczny kierunek rozwoju, ponieważ właśnie obciążenia AI, z dużymi zbiorami danych i intensywną wymianą między pamięcią masową a zasobami obliczeniowymi, coraz silniej kształtują infrastrukturę centrów danych. Jeśli okaże się, że taką przewidywalność można przekształcić w jeszcze inteligentniejsze zarządzanie pamięcią masową, Sandook lub podobne systemy mogą zyskać jeszcze szersze pole zastosowań.
Według MIT badania były częściowo finansowane ze środków amerykańskiej National Science Foundation, agencji DARPA i organizacji Semiconductor Research Corporation. W momencie, gdy branża sztucznej inteligencji i infrastruktury chmurowej szuka sposobów, jak wytrzymać wzrost popytu bez nieskończonego rozszerzania bazy sprzętowej, takie prace przyciągają uwagę właśnie dlatego, że oferują inną odpowiedź: niekoniecznie więcej maszyn, lecz mądrzejsze wykorzystanie tych, które już pracują.
Źródła:- MIT News – oryginalny artykuł o systemie Sandook, autorach badań, wynikach testów i planowanej prezentacji pracy (link)- USENIX NSDI 2026 – oficjalna strona pracy Unleashing the Potential of Datacenter SSDs by Taming Performance Variability z listą autorów i kontekstem konferencyjnym (link)- USENIX NSDI 2026 – oficjalna strona konferencji z datami i lokalizacją sympozjum (link)- Projekt Sandook w GitHubie – publicznie dostępne repozytorium z danymi technicznymi o środowisku testowym i implementacji systemu (link)
Czas utworzenia: 2 godzin temu