MITs Sandook zeigt, wie Rechenzentren ohne neue Ausrüstung mehr Leistung erzielen können
Forscher des MIT haben Sandook vorgestellt, eine Softwarelösung, die Rechenzentren dabei helfen könnte, aus vorhandenen SSD-Geräten spürbar mehr Leistung herauszuholen, ohne zusätzliche Hardware zu kaufen. Es handelt sich um einen Ansatz, der eines der teuersten und am wenigsten sichtbaren Probleme moderner digitaler Infrastruktur adressiert: die Tatsache, dass große Datenspeichersysteme, selbst wenn sie technisch einwandfrei und für die gemeinsame Nutzung vernetzt sind, oft unter ihrem tatsächlichen Potenzial arbeiten. Laut MIT News ist das System so konzipiert, dass es Arbeitslasten in Echtzeit auf mehrere Speichergeräte verteilt und dabei die Folgen von Verlangsamungen verringert, die durch Unterschiede zwischen den SSDs selbst, durch Konflikte zwischen Lesen und Schreiben sowie durch den Prozess der sogenannten „Garbage Collection“ entstehen. Die Forscher behaupten, dass ein solcher Ansatz bei realen Aufgaben einen sehr greifbaren Geschwindigkeitszuwachs bringen und in einigen Szenarien die Leistung im Vergleich zu üblichen statischen Methoden der Arbeitsverteilung nahezu verdoppeln kann.
Warum das Problem für Rechenzentren wichtig ist
Der Betrieb von Rechenzentren stützt sich heute nicht mehr nur auf Prozessoren und Netzwerke. Die Geschwindigkeit des Datenzugriffs ist ebenso wichtig geworden, insbesondere beim Training von Modellen der künstlichen Intelligenz, beim Betrieb von Datenbanken, bei der Verarbeitung großer Mengen an Nutzerinhalten und bei der Speicherung von Dateien, die ständig gelesen und ergänzt werden. In der Praxis werden daher mehrere SSD-Geräte oft zu einem gemeinsamen Pool verbunden, auf den mehrere Anwendungen zugreifen. Ein solches „Pooling“ der Geräte hat eine klare wirtschaftliche Logik: Nicht jede Anwendung muss eine eigene Festplatte mit voller Kapazität haben, wenn sich die Ressource über das Netzwerk teilen lässt. Das Problem besteht jedoch darin, dass nicht alle SSDs unter derselben Last gleich reagieren, sodass ein langsameres oder vorübergehend überlastetes Gerät die Gesamtleistung des gesamten Verbunds senken kann. Genau diese Lücke zwischen nomineller Kapazität und tatsächlich erreichter Geschwindigkeit ist der Bereich, in dem Sandook einen Unterschied machen will.
In seiner Mitteilung betont das MIT, dass in bestehenden Umgebungen ein erheblicher Teil der Gerätekapazität noch immer nicht effizient genutzt wird, und zwar selbst dann, wenn die Geräte formal zu einer höheren Auslastung zusammengefasst sind. Mit anderen Worten: Allein die Tatsache, dass SSDs in ein gemeinsames System eingebunden sind, bedeutet nicht, dass ein Rechenzentrum automatisch ein optimales Ergebnis erzielt. Wenn die Laufwerke in unterschiedlichen Zeiträumen, von verschiedenen Herstellern, mit unterschiedlichem Verschleißgrad und unterschiedlichen Kapazitäten gekauft wurden, unterscheidet sich ihr Verhalten unter Last zwangsläufig. Wenn man dazu noch die internen Prozesse der SSDs selbst nimmt, wird klar, warum eine klassische, gleichmäßige Verteilung von Aufgaben oft nicht ausreicht.
Drei Quellen der Verlangsamung, die das System eindämmen will
Laut der Beschreibung der Forschung wurde Sandook so entwickelt, dass es gleichzeitig drei Hauptquellen der Leistungsvariabilität angeht. Die erste sind die Unterschiede zwischen den SSD-Geräten selbst. In realen Rechenzentren wird Ausrüstung nicht immer auf einmal gekauft, und sie stammt auch nicht zwingend aus derselben Serie oder vom selben Hersteller. Im Laufe der Zeit werden einige Laufwerke stärker abgenutzt, einige arbeiten unter höherer Last, und einige haben andere technische Eigenschaften. Das bedeutet, dass selbst dann, wenn ein Administrator jedem Gerät formal dieselbe Aufgabe zuweist, das Ergebnis am Ende nicht dasselbe sein wird.
Das zweite Problem entsteht durch gleichzeitiges Lesen und Schreiben auf derselben SSD. Wenn ein Gerät neue Daten schreiben muss, muss es häufig zuvor einen Teil der vorhandenen Blöcke löschen. Dieser Prozess kann Lesevorgänge verlangsamen, die im selben Moment auf demselben Gerät stattfinden. In Umgebungen, in denen Anwendungen eine vorhersehbare Latenz verlangen, können solche Störungen durchaus teuer sein. Die dritte Quelle der Verlangsamung ist die „Garbage Collection“, der interne Prozess des Sammelns und Entfernens veralteter Daten, um Speicherplatz freizugeben. Dieser Prozess, so betonen die Autoren, wird in Intervallen aktiviert, die der Betreiber des Rechenzentrums nicht direkt kontrollieren kann, und wenn er startet, kann er den Betrieb des Laufwerks abrupt verlangsamen.
Gerade diese Kombination aus kurz- und langfristigen Ursachen für Leistungseinbrüche macht das Problem besonders unangenehm. Manche Verlangsamungen treten plötzlich auf und dauern nur kurz, während sich andere über Monate durch den Verschleiß der Geräte entwickeln. Wenn ein Verwaltungssystem nur eine Ursache beobachtet, kann es die andere leicht übersehen. Deshalb behaupten die Forscher, dass Sandooks Vorteil darin liegt, nicht nur ein einziges Symptom behandeln zu wollen, sondern das Verhalten des Speichersystems als Ganzes zu betrachten.
Zweistufige Architektur: globales Bild und lokale Reaktion
Die zentrale technische Idee des Systems ist eine zweistufige Verwaltungsarchitektur. An der Spitze steht ein globaler Scheduler, der das größere Bild des gesamten Geräteverbunds sieht und entscheidet, welche SSD welche Aufgaben erhält. Auf der unteren Ebene befinden sich lokale Scheduler auf einzelnen Maschinen, die sehr schnell reagieren können, wenn ein Gerät zurückzufallen beginnt oder plötzlich überlastet ist. Damit soll zusammengeführt werden, was in großen Systemen oft schwer zu vereinbaren ist: strategische Planung auf der Ebene des gesamten Rechenzentrums und unmittelbare operative Reaktion auf ein Problem, das innerhalb eines Sekundenbruchteils auftritt.
Das MIT gibt an, dass Sandook Störungen zwischen Lesen und Schreiben dadurch verringert, dass die SSDs rotiert werden, die eine einzelne Anwendung für diese beiden Arten von Operationen verwendet. Dadurch sinkt die Wahrscheinlichkeit, dass Lesen und Schreiben im selben Moment auf demselben Gerät kollidieren. Darüber hinaus erstellt das System ein Profil des üblichen Verhaltens jeder SSD, damit es erkennen kann, wann ein bestimmtes Gerät wahrscheinlich wegen der Garbage Collection langsamer wird. Wenn es eine solche Situation entdeckt, leitet es einen Teil der Last auf andere Geräte um, bis sich die betroffene SSD stabilisiert. Der Kern des Ansatzes besteht nicht darin, das problematische Laufwerk vollständig „abzuschalten“, sondern seine Last vorübergehend zu verringern und es dann schrittweise wieder in den vollen Betrieb zurückzuführen, wenn sich zeigt, dass es erneut mehr Arbeit bewältigen kann.
Ein solches Modell ist besonders wichtig, weil sich verschiedene Arten von Variabilität auf unterschiedlichen Zeitskalen abspielen. Die Garbage Collection kann einen plötzlichen Leistungseinbruch verursachen, während der Verschleiß der Geräte eine langsamere, kumulative Verlangsamung erzeugt. Der globale Controller kann das längerfristige Profil des Geräts berücksichtigen, und der lokale Scheduler kann auf einen unmittelbaren Stillstand reagieren. Theoretisch ist es gerade diese Kombination, die dem System die Flexibilität verleiht, die einfachere Verteilungsmodelle nicht haben.
Testergebnisse: von Datenbanken bis zum Training von KI-Modellen
Die Forscher testeten Sandook auf einem Satz von 10 SSDs und beobachteten das Verhalten des Systems bei vier unterschiedlichen Aufgabentypen: Datenbankbetrieb, Training von Machine-Learning-Modellen, Bildkompression und Speicherung von Nutzerdaten. Laut der MIT-Mitteilung lag die Steigerung des Durchsatzes pro Anwendung im Vergleich zu statischen Methoden zwischen 12 und 94 Prozent, während die Gesamtauslastung der SSD-Kapazität um 23 Prozent zunahm. Die Autoren geben außerdem an, dass das System es den SSDs ermöglichte, 95 Prozent ihres theoretischen Leistungsmaximums zu erreichen, und das ohne spezialisierte Hardware oder Anpassungen, die speziell für eine einzelne Anwendung hätten entwickelt werden müssen.
Diese Zahlen verdienen eine sorgfältige Lektüre. Sie bedeuten nicht, dass jedes Rechenzentrum in allen Szenarien automatisch die doppelte Leistung erhält, sondern dass unter Testbedingungen, bei Aufgaben, die realen Lasten ähneln, der Softwareansatz einer intelligenteren Arbeitsverteilung sehr messbare Ergebnisse lieferte. Das ist wichtig, weil in der Praxis Investitionen in Infrastruktur oft über den Kauf neuer Ausrüstung betrachtet werden. Sandook legt nahe, dass zumindest ein Teil der Gewinne auch auf der Ebene der Verwaltung bestehender Ressourcen erzielt werden kann, was für Betreiber in einer Zeit steigender Energiekosten und wachsenden Nachhaltigkeitsdrucks besonders wichtig ist.
Weniger Abfall, mehr Auslastung
Einer der auffälligsten Schwerpunkte in der MIT-Mitteilung ist nicht nur technischer, sondern auch wirtschaftlicher und ökologischer Natur. Die leitende Autorin der Arbeit, Gohar Irfan Chaudhry, warnte davor, dass Probleme in der Recheninfrastruktur allzu oft dadurch gelöst werden, dass einfach noch mehr Ressourcen hinzugefügt werden, obwohl das langfristig nicht nachhaltig ist. Ein solcher Ansatz bedeutet höhere Geldausgaben, mehr verbrauchte Materialien und eine kürzere effektive Lebensdauer teurer Ausrüstung, die bereits produziert wurde. In diesem Sinne fügt sich Sandook in einen breiteren Trend technologischer Lösungen ein, die nicht zwingend eine neue Gerätegeneration verlangen, sondern versuchen, aus bestehenden Systemen das Maximum herauszuholen, bevor zu einem Austausch gegriffen wird.
Für die Rechenzentrumsbranche ist das kein Randthema. SSDs sind zwar schnell, aber auch teuer, und in großen Maßstäben können selbst relativ kleine Verbesserungen der Auslastung Einsparungen bedeuten, die sich in erheblichen Beträgen messen lassen. Wenn man dazu die Tatsache nimmt, dass moderne Rechenzentren bereits einen großen Teil der Last der digitalen Wirtschaft tragen, von Internetdiensten bis zur generativen künstlichen Intelligenz, wird klar, warum jede Effizienzsteigerung sowohl aus geschäftlicher als auch aus regulatorischer Sicht interessant ist. Weniger neue Ausrüstung zu kaufen bedeutet nicht nur niedrigere Investitionskosten, sondern kann auch einen geringeren CO2-Fußabdruck über den Lebenszyklus der Infrastruktur bedeuten.
Ohne spezialisierte Hardware, aber nicht ohne ernsthaften Kontext
Ein wichtiges Element der Arbeit ist auch die Behauptung, dass für die Anwendung des Ansatzes keine spezialisierte Hardware erforderlich ist. Das erhöht die praktische Attraktivität der Lösung, weil viele Forschungen gerade deshalb auf das Labor beschränkt bleiben, weil sie einen besonderen Gerätetyp oder teure Umbauten der bestehenden Infrastruktur verlangen. Gleichzeitig zeigen die verfügbaren Daten, dass Sandook in einer ernsthaften technischen Umgebung entwickelt und evaluiert wurde. Auf der öffentlich zugänglichen GitHub-Seite des Projekts wird angegeben, dass in den Experimenten Samsung PM1725a und Western Digital DC SN200 NVMe-SSDs, eine Mellanox ConnectX-6-Netzwerkkarte mit 100 GbE, Intel-Xeon-E5-2680-v4-Prozessoren sowie Ubuntu 23.04 mit Linux-Kernel 6.5 verwendet wurden. Solche Details bedeuten nicht, dass die Lösung nur für eine identische Konfiguration reserviert ist, aber sie zeigen, dass es sich nicht um eine abstrakte Simulation ohne Berührung mit realen Infrastrukturanforderungen handelt.
Das öffentlich veröffentlichte Projekt-Repository deutet außerdem darauf hin, dass die Forscher die Lösung der Gemeinschaft von System- und Netzwerkexperten näherbringen wollen, anstatt sie nur auf der Ebene eines Konferenzbeitrags zu belassen. Das ist auch deshalb relevant, weil Rechenzentren häufig nach Technologien suchen, die schrittweise eingeführt und getestet werden können, und nicht nur nach Ideen, die auf einem Diagramm gut aussehen. Die Offenheit der Implementierung garantiert keine kommerzielle Nutzung, erleichtert aber die technische Überprüfung und den Vergleich mit anderen Ansätzen.
Bestätigung durch die Konferenz und breiterer fachlicher Kontext
Die Arbeit mit dem Titel
Unleashing the Potential of Datacenter SSDs by Taming Performance Variability wurde zur Präsentation auf dem USENIX-Symposium NSDI 2026 angenommen, einer der wichtigeren internationalen Veranstaltungen, die sich dem Design und der Implementierung vernetzter und verteilter Systeme widmen. Laut der offiziellen Konferenzseite findet NSDI 2026 vom 4. bis 6. Mai 2026 in Renton im Bundesstaat Washington statt. Die bloße Tatsache der Annahme der Arbeit bedeutet nicht, dass die Technologie bereits Industriestandard ist, aber sie bedeutet, dass sie ein relevantes fachliches Auswahlverfahren innerhalb der Gemeinschaft durchlaufen hat, die sich mit der Infrastruktur des Internets, der Cloud und großer Rechensysteme befasst.
Zusätzliches Gewicht erhält die Geschichte auch durch die Reaktion außerhalb des Autorenteams. Das MIT übermittelt eine Aussage von Josh Fried, Softwareingenieur bei Google und künftiger Professor an der University of Pennsylvania, der an der Forschung nicht beteiligt war. Er bewertet Flash-Speicher als Schlüsseltechnologie moderner Rechenzentren, betont aber, dass die gemeinsame Nutzung dieser Ressource zwischen Arbeitslasten mit sehr unterschiedlichen Anforderungen weiterhin ein offenes Problem bleibt. Seiner Einschätzung nach verschiebt diese Arbeit die Grenze mit einer praktischen, einsatzbereiten Lösung deutlich nach vorn und bringt Flash-Speicher seinem vollen Potenzial in Produktiv-Clouds näher. Solche Aussagen sind für sich genommen kein Beweis für Erfolg, aber sie zeigen, dass das Thema innerhalb der Fachwelt eine breitere Resonanz hat.
Wie es weitergeht
Die Forscher kündigten an, dass sie in künftiger Arbeit neue Protokolle nutzen wollen, die auf neueren SSDs verfügbar sind und den Betreibern mehr Kontrolle über die Platzierung von Daten geben. Darüber hinaus wollen sie auch die Vorhersehbarkeit von Lasten in Systemen der künstlichen Intelligenz nutzen, um die Effizienz des SSD-Betriebs weiter zu steigern. Das ist eine logische Entwicklungsrichtung, weil gerade KI-Arbeitslasten mit großen Datensätzen und intensiven Austauschvorgängen zwischen Speicher- und Rechenressourcen die Infrastruktur von Rechenzentren immer stärker prägen. Wenn sich zeigt, dass sich eine solche Vorhersehbarkeit in eine noch intelligentere Speicherverwaltung umsetzen lässt, könnten Sandook oder ähnliche Systeme einen noch breiteren Anwendungsbereich erhalten.
Laut MIT wurde die Forschung teilweise mit Mitteln der US-amerikanischen National Science Foundation, der Behörde DARPA und der Semiconductor Research Corporation finanziert. In einem Moment, in dem die Branche der künstlichen Intelligenz und der Cloud-Infrastruktur nach Wegen sucht, das Wachstum der Nachfrage ohne endlose Ausweitung der Hardwarebasis zu bewältigen, ziehen solche Arbeiten gerade deshalb Aufmerksamkeit auf sich, weil sie eine andere Antwort anbieten: nicht unbedingt mehr Maschinen, sondern eine intelligentere Nutzung derjenigen, die bereits laufen.
Quellen:- MIT News – ursprünglicher Artikel über das Sandook-System, die Autoren der Forschung, die Testergebnisse und die geplante Präsentation der Arbeit (Link)- USENIX NSDI 2026 – offizielle Seite der Arbeit Unleashing the Potential of Datacenter SSDs by Taming Performance Variability mit der Autorenliste und dem Konferenzkontext (Link)- USENIX NSDI 2026 – offizielle Konferenzseite mit den Daten und dem Veranstaltungsort des Symposiums (Link)- Sandook-GitHub-Projekt – öffentlich zugängliches Repository mit technischen Daten zur Testumgebung und zur Implementierung des Systems (Link)
Unterkünfte in der Nähe finden
Erstellungszeitpunkt: 2 Stunden zuvor