Le Sandook du MIT montre comment les centres de données peuvent obtenir plus de performances sans nouvel équipement
Les chercheurs du MIT ont présenté Sandook, une solution logicielle qui pourrait aider les centres de données à extraire sensiblement plus de performances des SSD existants sans acheter de matériel supplémentaire. Il s’agit d’une approche qui vise l’un des problèmes les plus coûteux et les moins visibles de l’infrastructure numérique moderne : le fait que les grands systèmes de stockage de données, même lorsqu’ils sont techniquement sains et mis en réseau pour un usage partagé, fonctionnent souvent en dessous de leur potentiel réel. Selon MIT News, le système est conçu pour répartir en temps réel les charges de travail entre plusieurs dispositifs de stockage tout en réduisant les effets des ralentissements causés par les différences entre les SSD eux-mêmes, par les conflits entre lecture et écriture, ainsi que par le processus dit de « garbage collection ». Les chercheurs affirment qu’une telle approche peut apporter sur des tâches réelles un gain de vitesse très concret et, dans certains scénarios, presque doubler les performances par rapport aux méthodes statiques habituelles de répartition du travail.
Pourquoi le problème est important pour les centres de données
Le fonctionnement des centres de données ne repose aujourd’hui plus seulement sur les processeurs et le réseau. La vitesse d’accès aux données est devenue tout aussi importante, en particulier dans l’entraînement des modèles d’intelligence artificielle, le fonctionnement des bases de données, le traitement de grandes quantités de contenus d’utilisateurs et le stockage de fichiers qui sont constamment lus et complétés. En pratique, plusieurs SSD sont donc souvent reliés dans un pool partagé auquel plusieurs applications accèdent. Un tel « pooling » des dispositifs a une logique économique claire : chaque application n’a pas besoin d’avoir son propre disque à pleine capacité si la ressource peut être partagée via le réseau. Le problème, cependant, est que tous les SSD ne réagissent pas de la même manière sous une même charge, de sorte qu’un dispositif plus lent ou momentanément saturé peut faire baisser les performances globales de l’ensemble. C’est précisément cet écart entre la capacité nominale et la vitesse réellement obtenue qui représente l’espace dans lequel Sandook tente de faire la différence.
Dans sa publication, le MIT souligne que, dans les environnements existants, une part importante de la capacité des dispositifs n’est toujours pas utilisée efficacement, et cela même lorsque les dispositifs sont formellement regroupés pour une meilleure utilisation. En d’autres termes, le seul fait que les SSD soient connectés dans un système partagé ne signifie pas qu’un centre de données obtiendra automatiquement un résultat optimal. Si les disques ont été achetés à des périodes différentes, auprès de fabricants différents, avec des degrés d’usure différents et des capacités différentes, leur comportement sous charge diffère nécessairement. Si l’on y ajoute les processus internes des SSD eux-mêmes, il devient clair pourquoi une répartition classique et uniforme des tâches n’est souvent pas suffisante.
Trois sources de ralentissement que le système tente de maîtriser
Selon la description de la recherche, Sandook a été développé pour traiter simultanément trois principales sources de variabilité des performances. La première est constituée par les différences entre les SSD eux-mêmes. Dans les centres de données réels, l’équipement n’est pas toujours acheté d’un seul coup et ne provient pas nécessairement de la même série ni du même fabricant. Avec le temps, certains disques s’usent davantage, certains fonctionnent sous une charge plus élevée et certains possèdent des caractéristiques techniques différentes. Cela signifie que même lorsqu’un administrateur attribue formellement le même travail à chaque dispositif, le résultat final ne sera pas le même.
Le deuxième problème vient de la lecture et de l’écriture simultanées sur le même SSD. Lorsqu’un dispositif doit écrire de nouvelles données, il doit souvent d’abord effacer une partie des blocs existants. Ce processus peut ralentir les opérations de lecture qui se déroulent au même moment sur le même dispositif. Dans les environnements où les applications exigent une latence prévisible, de telles interférences peuvent être particulièrement coûteuses. La troisième source de ralentissement est le « garbage collection », le processus interne de collecte et de suppression des données obsolètes afin de libérer de l’espace. Ce processus, comme le soulignent les auteurs, s’active à des intervalles que l’opérateur du centre de données ne peut pas contrôler directement, et lorsqu’il se déclenche, il peut ralentir brusquement le fonctionnement du disque.
C’est précisément cette combinaison de causes à court et à long terme des baisses de performances qui rend le problème particulièrement gênant. Certains ralentissements apparaissent soudainement et durent peu, tandis que d’autres se développent sur des mois en raison de l’usure des dispositifs. Si un système de gestion n’observe qu’une seule cause, il peut facilement négliger l’autre. C’est pourquoi les chercheurs affirment que l’avantage de Sandook réside dans le fait qu’il ne cherche pas à traiter un seul symptôme, mais qu’il observe l’ensemble du comportement du système de stockage.
Une architecture à deux niveaux : vision globale et réaction locale
L’idée technique centrale du système est une architecture de gestion à deux niveaux. Au sommet se trouve un ordonnanceur global qui voit l’image d’ensemble de tout le parc de dispositifs et décide quel SSD recevra quelles tâches. À un niveau inférieur se trouvent des ordonnanceurs locaux sur les machines individuelles qui peuvent réagir très rapidement lorsqu’un dispositif commence à prendre du retard ou se retrouve soudainement saturé. L’objectif est de concilier ce qu’il est souvent difficile de réconcilier dans les grands systèmes : la planification stratégique à l’échelle de l’ensemble du centre de données et la réaction opérationnelle immédiate à un problème qui apparaît en une fraction de seconde.
Le MIT indique que Sandook réduit les interférences entre lecture et écriture en faisant tourner les SSD qu’une application donnée utilise pour ces deux types d’opérations. Cela réduit la probabilité que lecture et écriture entrent en collision sur le même dispositif au même moment. En outre, le système établit le profil du comportement habituel de chaque SSD afin de pouvoir reconnaître quand un dispositif donné ralentit probablement à cause du garbage collection. Lorsqu’il détecte une telle situation, il redirige une partie de la charge vers d’autres dispositifs jusqu’à ce que le SSD concerné se stabilise. Le principe de l’approche n’est pas de « désactiver » complètement le disque problématique, mais de réduire temporairement sa charge, puis de le ramener progressivement à un fonctionnement complet lorsqu’il se révèle de nouveau capable de supporter davantage de travail.
Un tel modèle est particulièrement important parce que les différents types de variabilité se produisent sur des échelles de temps différentes. Le garbage collection peut provoquer une chute soudaine des performances, tandis que l’usure du dispositif crée un ralentissement plus lent et cumulatif. Le contrôleur global peut tenir compte du profil à plus long terme du dispositif, tandis que l’ordonnanceur local peut réagir à un blocage immédiat. En théorie, c’est précisément cette combinaison qui donne au système la flexibilité dont les modèles de répartition plus simples sont dépourvus.
Résultats des tests : de la base de données à l’entraînement des modèles d’IA
Les chercheurs ont testé Sandook sur un ensemble de 10 SSD et ont observé le comportement du système dans quatre types différents de tâches : fonctionnement d’une base de données, entraînement de modèles d’apprentissage automatique, compression d’images et stockage de données utilisateur. Selon la publication du MIT, l’augmentation du débit par application allait de 12 à 94 pour cent par rapport aux méthodes statiques, tandis que l’utilisation globale de la capacité des SSD a augmenté de 23 pour cent. Les auteurs indiquent également que le système a permis aux SSD d’atteindre 95 pour cent de leur maximum théorique de performances, et cela sans matériel spécialisé ni adaptations qui auraient dû être réalisées spécialement pour une application donnée.
Ces chiffres méritent une lecture attentive. Ils ne signifient pas que chaque centre de données obtiendra automatiquement des performances doublées dans tous les scénarios, mais que, dans les conditions de test, sur des tâches ressemblant à des charges réelles, l’approche logicielle d’une répartition plus intelligente du travail a donné des résultats très mesurables. C’est important parce qu’en pratique, les investissements dans l’infrastructure sont souvent envisagés sous l’angle de l’achat de nouveaux équipements. Sandook suggère qu’au moins une partie des gains peut également être obtenue au niveau de la gestion des ressources existantes, ce qui est particulièrement important pour les opérateurs à une période de hausse des coûts énergétiques et de pression en faveur de la durabilité.
Moins de gaspillage, plus d’utilisation
L’un des points les plus marquants dans la publication du MIT n’est pas seulement technique, mais aussi économique et environnemental. L’autrice principale de l’étude, Gohar Irfan Chaudhry, a averti que les problèmes de l’infrastructure informatique sont trop souvent résolus en ajoutant simplement davantage de ressources, alors que cela n’est pas durable à long terme. Une telle approche signifie davantage d’argent dépensé, plus de matériaux consommés et une durée de vie effective plus courte pour des équipements coûteux qui ont déjà été produits. En ce sens, Sandook s’inscrit dans une tendance plus large de solutions technologiques qui n’exigent pas nécessairement une nouvelle génération de dispositifs, mais qui cherchent à tirer le maximum des systèmes existants avant d’envisager leur remplacement.
Pour l’industrie des centres de données, ce n’est pas un sujet marginal. Les SSD sont rapides, mais ils sont aussi coûteux, et à grande échelle, même des améliorations relativement modestes de l’utilisation peuvent représenter des économies mesurées en montants significatifs. Si l’on ajoute à cela le fait que les centres de données modernes portent déjà une grande partie de la charge de l’économie numérique, des services internet à l’intelligence artificielle générative, il devient clair pourquoi toute augmentation de l’efficacité est intéressante tant du point de vue commercial que réglementaire. Acheter moins de nouveaux équipements ne signifie pas seulement des coûts d’investissement plus faibles, mais peut aussi signifier une empreinte carbone plus réduite sur l’ensemble du cycle de vie de l’infrastructure.
Sans matériel spécialisé, mais pas sans contexte sérieux
Un élément important du travail est aussi l’affirmation selon laquelle l’application de l’approche ne nécessite pas de matériel spécialisé. Cela accroît l’attrait pratique de la solution, car de nombreuses recherches restent limitées au laboratoire précisément parce qu’elles exigent un type particulier d’équipement ou des modifications coûteuses de l’infrastructure existante. En même temps, les données disponibles montrent que Sandook a été développé et évalué dans un environnement technique sérieux. La page GitHub publique du projet indique que les expériences ont utilisé des SSD NVMe Samsung PM1725a et Western Digital DC SN200, une carte réseau Mellanox ConnectX-6 de 100 GbE, des processeurs Intel Xeon E5-2680 v4 ainsi qu’Ubuntu 23.04 avec le noyau Linux 6.5. De tels détails ne signifient pas que la solution est réservée uniquement à une configuration identique, mais ils montrent qu’il ne s’agit pas d’une simulation abstraite sans contact avec les exigences réelles de l’infrastructure.
Le dépôt public du projet indique également que les chercheurs veulent rapprocher la solution de la communauté des spécialistes des systèmes et des réseaux, et non la conserver uniquement au niveau d’un article de conférence. Cela est également pertinent parce que les centres de données recherchent souvent des technologies qui peuvent être introduites et testées progressivement, et pas seulement des idées qui rendent bien sur un graphique. L’ouverture de l’implémentation ne garantit pas une adoption commerciale, mais elle facilite la vérification technique et la comparaison avec d’autres approches.
Validation par conférence et contexte professionnel plus large
L’article intitulé
Unleashing the Potential of Datacenter SSDs by Taming Performance Variability a été accepté pour une présentation au symposium USENIX NSDI 2026, l’un des rassemblements internationaux les plus importants consacrés à la conception et à l’implémentation de systèmes en réseau et distribués. Selon le site officiel de la conférence, NSDI 2026 se tient du 4 au 6 mai 2026 à Renton, dans l’État de Washington. Le seul fait que l’article ait été accepté ne signifie pas que la technologie soit déjà une norme industrielle, mais cela signifie qu’il a passé un processus de sélection expert pertinent au sein de la communauté qui s’occupe de l’infrastructure d’internet, du cloud et des grands systèmes informatiques.
L’histoire gagne encore en poids grâce à la réaction venue de l’extérieur de l’équipe des auteurs. Le MIT relaie une déclaration de Josh Fried, ingénieur logiciel chez Google et futur professeur à l’Université de Pennsylvanie, qui n’a pas participé à la recherche. Il estime que le stockage flash est une technologie clé des centres de données modernes, mais que le partage commun de cette ressource entre des charges de travail ayant des exigences très différentes demeure un problème ouvert. Selon son évaluation, ce travail fait progresser de manière sensible la frontière grâce à une solution pratique prête à être déployée, rapprochant le stockage flash de son plein potentiel dans les clouds de production. De telles déclarations ne constituent pas en elles-mêmes une preuve de succès, mais elles montrent que le sujet trouve un écho plus large au sein de la profession.
Et maintenant
Les chercheurs ont annoncé que, dans leurs travaux futurs, ils souhaitent exploiter de nouveaux protocoles disponibles sur les SSD plus récents, qui donnent aux opérateurs un plus grand contrôle sur le placement des données. En outre, ils veulent aussi exploiter la prévisibilité des charges dans les systèmes d’intelligence artificielle afin d’augmenter encore l’efficacité du fonctionnement des SSD. C’est une direction de développement logique, car ce sont précisément les charges de travail de l’IA, avec de grands ensembles de données et des échanges intensifs entre le stockage et les ressources de calcul, qui façonnent de plus en plus fortement l’infrastructure des centres de données. S’il s’avère que cette prévisibilité peut être transformée en une gestion du stockage encore plus intelligente, Sandook ou des systèmes similaires pourraient bénéficier d’un champ d’application encore plus large.
Selon le MIT, la recherche a été financée en partie par la National Science Foundation des États-Unis, l’agence DARPA et la Semiconductor Research Corporation. À un moment où l’industrie de l’intelligence artificielle et de l’infrastructure cloud cherche des moyens de supporter la croissance de la demande sans étendre indéfiniment la base matérielle, de tels travaux attirent l’attention précisément parce qu’ils offrent une réponse différente : pas nécessairement plus de machines, mais une utilisation plus intelligente de celles qui fonctionnent déjà.
Sources :- MIT News – article original sur le système Sandook, les auteurs de la recherche, les résultats des tests et la présentation prévue de l’article (lien)- USENIX NSDI 2026 – page officielle de l’article Unleashing the Potential of Datacenter SSDs by Taming Performance Variability avec la liste des auteurs et le contexte de la conférence (lien)- USENIX NSDI 2026 – page officielle de la conférence avec les dates et le lieu du symposium (lien)- Projet Sandook sur GitHub – dépôt public avec des données techniques sur l’environnement de test et l’implémentation du système (lien)
Trouvez un hébergement à proximité
Heure de création: 2 heures avant