El Sandook del MIT muestra cómo los centros de datos pueden obtener más rendimiento sin equipo nuevo
Investigadores del MIT presentaron Sandook, una solución de software que podría ayudar a los centros de datos a extraer un rendimiento notablemente mayor de los dispositivos SSD existentes sin comprar hardware adicional. Se trata de un enfoque que apunta a uno de los problemas más costosos y menos visibles de la infraestructura digital moderna: el hecho de que los grandes sistemas de almacenamiento de datos, incluso cuando son técnicamente correctos y están conectados en red para uso compartido, a menudo funcionan por debajo de su potencial real. Según MIT News, el sistema está diseñado para distribuir cargas de trabajo entre múltiples dispositivos de almacenamiento en tiempo real y, al mismo tiempo, reducir las consecuencias de las ralentizaciones que surgen por las diferencias entre los propios SSD, por los conflictos entre lectura y escritura y por el proceso del llamado “garbage collection”. Los investigadores afirman que este enfoque puede aportar un aumento de velocidad muy tangible en tareas reales y, en algunos escenarios, casi duplicar el rendimiento en comparación con los métodos estáticos habituales de distribución del trabajo.
Por qué el problema es importante para los centros de datos
El funcionamiento de los centros de datos ya no depende hoy solo de los procesadores y la red. La velocidad de acceso a los datos se ha vuelto igual de importante, especialmente en el entrenamiento de modelos de inteligencia artificial, el funcionamiento de bases de datos, el procesamiento de grandes cantidades de contenido de usuarios y el almacenamiento de archivos que se leen y se actualizan constantemente. En la práctica, por eso, varios dispositivos SSD suelen conectarse en un pool compartido al que acceden múltiples aplicaciones. Ese “pooling” de dispositivos tiene una lógica económica clara: no todas las aplicaciones tienen que contar con su propio disco de plena capacidad si el recurso puede compartirse a través de la red. El problema, sin embargo, es que no todos los SSD responden igual bajo la misma carga, por lo que un dispositivo más lento o temporalmente congestionado puede reducir el rendimiento total de todo el conjunto. Precisamente esa brecha entre la capacidad nominal y la velocidad realmente alcanzada representa el espacio en el que Sandook intenta marcar la diferencia.
El MIT subraya en su publicación que, en los entornos existentes, una parte importante de la capacidad de los dispositivos sigue sin utilizarse de manera eficiente, incluso cuando los dispositivos están formalmente unificados para un mayor aprovechamiento. En otras palabras, el simple hecho de que los SSD estén conectados en un sistema compartido no significa que un centro de datos vaya a obtener automáticamente un resultado óptimo. Si los discos se compraron en distintos periodos, de distintos fabricantes, con diferentes grados de desgaste y distintas capacidades, su comportamiento bajo carga necesariamente difiere. Si a eso se le añaden los procesos internos de los propios SSD, queda claro por qué la distribución clásica y uniforme de tareas a menudo no es suficiente.
Tres fuentes de ralentización que el sistema intenta contener
Según la descripción de la investigación, Sandook fue desarrollado para resolver simultáneamente tres fuentes principales de variabilidad del rendimiento. La primera son las diferencias entre los propios dispositivos SSD. En los centros de datos reales, el equipo no siempre se compra de una sola vez ni necesariamente procede de la misma serie o del mismo fabricante. Con el tiempo, algunos discos se desgastan más, algunos funcionan bajo mayor carga y algunos tienen características técnicas distintas. Eso significa que incluso cuando un administrador asigna formalmente el mismo trabajo a cada dispositivo, el resultado final no será el mismo.
El segundo problema proviene de la lectura y la escritura simultáneas en el mismo SSD. Cuando un dispositivo tiene que escribir datos nuevos, a menudo primero debe borrar parte de los bloques existentes. Ese proceso puede ralentizar las operaciones de lectura que se producen al mismo tiempo en el mismo dispositivo. En entornos en los que las aplicaciones requieren una latencia predecible, esas interferencias pueden resultar muy costosas. La tercera fuente de ralentización es el “garbage collection”, el proceso interno de recopilar y eliminar datos obsoletos para liberar espacio. Ese proceso, como señalan los autores, se activa en intervalos que el operador del centro de datos no puede controlar directamente y, cuando se pone en marcha, puede ralentizar bruscamente el funcionamiento del disco.
Precisamente esa combinación de causas a corto y largo plazo de caída del rendimiento hace que el problema sea especialmente molesto. Algunas ralentizaciones aparecen de repente y duran poco, mientras que otras se desarrollan durante meses a través del desgaste de los dispositivos. Si un sistema de gestión observa solo una causa, puede pasar por alto fácilmente la otra. Por eso los investigadores sostienen que la ventaja de Sandook reside en que no intenta tratar solo un síntoma, sino que observa el comportamiento del sistema de almacenamiento en su conjunto.
Arquitectura de dos capas: visión global y reacción local
La idea técnica central del sistema es una arquitectura de gestión de dos capas. En la parte superior hay un programador global que ve la imagen más amplia de todo el conjunto de dispositivos y decide qué SSD recibirá qué tareas. En el nivel inferior hay programadores locales en máquinas individuales que pueden reaccionar muy rápidamente cuando algún dispositivo empieza a quedarse atrás o se congestiona de repente. Con ello se intenta unir lo que en los grandes sistemas suele ser difícil de conciliar: la planificación estratégica a nivel de todo el centro de datos y la reacción operativa inmediata ante un problema que aparece en una fracción de segundo.
El MIT señala que Sandook reduce las interferencias entre lectura y escritura rotando los SSD que una aplicación individual utiliza para esos dos tipos de operaciones. Así se reduce la probabilidad de que lectura y escritura choquen en el mismo dispositivo al mismo tiempo. Además, el sistema perfila el comportamiento habitual de cada SSD para poder reconocer cuándo es probable que un determinado dispositivo esté ralentizándose debido al garbage collection. Cuando detecta esa situación, desvía parte de la carga a otros dispositivos hasta que el SSD afectado se estabiliza. La esencia del enfoque no es “desconectar” por completo el disco problemático, sino reducir temporalmente su carga y luego devolverlo gradualmente al funcionamiento pleno cuando se demuestre que puede volver a soportar más trabajo.
Ese modelo es especialmente importante porque los distintos tipos de variabilidad se producen en diferentes escalas temporales. El garbage collection puede provocar una caída repentina del rendimiento, mientras que el desgaste del dispositivo genera una ralentización más lenta y acumulativa. El controlador global puede tener en cuenta el perfil a más largo plazo del dispositivo, y el programador local puede reaccionar ante un bloqueo inmediato. En teoría, precisamente esa combinación es la que da al sistema la flexibilidad de la que carecen los modelos de distribución más simples.
Resultados de las pruebas: desde bases de datos hasta entrenamiento de modelos de IA
Los investigadores probaron Sandook en un conjunto de 10 SSD y observaron el comportamiento del sistema en cuatro tipos distintos de tareas: funcionamiento de bases de datos, entrenamiento de modelos de aprendizaje automático, compresión de imágenes y almacenamiento de datos de usuarios. Según la publicación del MIT, el aumento del rendimiento por aplicación osciló entre el 12 y el 94 por ciento en comparación con los métodos estáticos, mientras que la utilización total de la capacidad de los SSD aumentó un 23 por ciento. Los autores también indican que el sistema permitió a los SSD alcanzar el 95 por ciento de su máximo teórico de rendimiento, y ello sin hardware especializado ni adaptaciones que tuvieran que hacerse específicamente para una aplicación concreta.
Estas cifras merecen una lectura cuidadosa. No significan que cada centro de datos vaya a obtener automáticamente el doble de rendimiento en todos los escenarios, sino que, en condiciones de prueba, en tareas que se parecen a cargas reales, el enfoque de software hacia una distribución más inteligente del trabajo produjo resultados muy medibles. Eso es importante porque, en la práctica, las inversiones en infraestructura suelen contemplarse a través de la compra de equipo nuevo. Sandook sugiere que al menos parte de la ganancia también puede lograrse a nivel de la gestión de los recursos existentes, lo que es especialmente importante para los operadores en un periodo de aumento de los costes energéticos y presión por la sostenibilidad.
Menos desperdicio, más aprovechamiento
Uno de los énfasis más llamativos en la publicación del MIT no es solo técnico, sino también económico y medioambiental. La autora principal del trabajo, Gohar Irfan Chaudhry, advirtió que los problemas en la infraestructura informática con demasiada frecuencia se resuelven simplemente añadiendo más recursos, aunque eso no es sostenible a largo plazo. Ese enfoque implica un mayor gasto de dinero, más materiales consumidos y una vida útil efectiva más corta para un equipo costoso que ya ha sido producido. En ese sentido, Sandook encaja en una tendencia más amplia de soluciones tecnológicas que no exigen necesariamente una nueva generación de dispositivos, sino que intentan extraer el máximo de los sistemas existentes antes de recurrir al reemplazo.
Para la industria de los centros de datos, este no es un tema marginal. Los SSD son rápidos, pero también son caros, y a gran escala incluso mejoras relativamente pequeñas en el aprovechamiento pueden significar ahorros medidos en cantidades significativas. Si a eso se añade el hecho de que los centros de datos modernos ya soportan gran parte de la carga de la economía digital, desde los servicios de internet hasta la inteligencia artificial generativa, queda claro por qué cualquier aumento de la eficiencia resulta interesante tanto desde el punto de vista empresarial como regulatorio. Comprar menos equipo nuevo no solo significa menores costes de capital, sino que también puede significar una menor huella de carbono durante el ciclo de vida de la infraestructura.
Sin hardware especializado, pero no sin un contexto serio
Un elemento importante del trabajo es también la afirmación de que para aplicar el enfoque no se necesita hardware especializado. Eso aumenta el atractivo práctico de la solución porque muchas investigaciones se quedan limitadas al laboratorio precisamente porque requieren un tipo especial de equipo o costosas modificaciones de la infraestructura existente. Al mismo tiempo, los datos disponibles muestran que Sandook fue desarrollado y evaluado en un entorno técnico serio. En la página pública del proyecto en GitHub se indica que en los experimentos se utilizaron SSD NVMe Samsung PM1725a y Western Digital DC SN200, una tarjeta de red Mellanox ConnectX-6 de 100 GbE, procesadores Intel Xeon E5-2680 v4 y Ubuntu 23.04 con el núcleo Linux 6.5. Esos detalles no significan que la solución esté reservada solo para una configuración idéntica, pero muestran que no se trata de una simulación abstracta sin contacto con requisitos reales de infraestructura.
El repositorio público del proyecto también apunta a que los investigadores quieren acercar la solución a la comunidad de especialistas en sistemas y redes, y no mantenerla solo al nivel de un trabajo de conferencia. Eso también es relevante porque los centros de datos suelen buscar tecnologías que puedan introducirse y probarse de manera gradual, y no solo ideas que queden bien en un gráfico. La apertura de la implementación no garantiza una aplicación comercial, pero facilita la verificación técnica y la comparación con otros enfoques.
Validación en conferencia y contexto profesional más amplio
El trabajo titulado
Unleashing the Potential of Datacenter SSDs by Taming Performance Variability fue aceptado para su presentación en el simposio USENIX NSDI 2026, uno de los encuentros internacionales más importantes dedicados al diseño y la implementación de sistemas en red y distribuidos. Según la página oficial de la conferencia, NSDI 2026 se celebra del 4 al 6 de mayo de 2026 en Renton, en el estado de Washington. El mero hecho de que el trabajo haya sido aceptado no significa que la tecnología sea ya un estándar industrial, pero sí significa que ha superado un proceso relevante de selección experta dentro de la comunidad que se ocupa de la infraestructura de internet, la nube y los grandes sistemas informáticos.
La historia gana peso adicional también por la reacción fuera del equipo autoral. El MIT transmite una declaración de Josh Fried, ingeniero de software en Google y futuro profesor en la Universidad de Pensilvania, que no participó en la investigación. Él considera que el almacenamiento flash es una tecnología clave de los centros de datos modernos, pero que compartir ese recurso entre cargas de trabajo con requisitos muy distintos sigue siendo un problema abierto. Según su valoración, este trabajo desplaza sensiblemente la frontera hacia adelante con una solución práctica lista para su implantación, acercando el almacenamiento flash a todo su potencial en nubes de producción. Tales declaraciones no son por sí mismas una prueba del éxito, pero muestran que el tema tiene una resonancia más amplia dentro de la profesión.
Qué sigue ahora
Los investigadores anunciaron que en trabajos futuros quieren aprovechar nuevos protocolos disponibles en SSD más recientes que dan a los operadores un mayor control sobre la ubicación de los datos. Además, quieren aprovechar también la previsibilidad de las cargas de trabajo en sistemas de inteligencia artificial para aumentar aún más la eficiencia del funcionamiento de los SSD. Esa es una dirección lógica de desarrollo porque precisamente las cargas de trabajo de IA, con grandes conjuntos de datos e intercambios intensivos entre almacenamiento y recursos de cálculo, están moldeando cada vez más la infraestructura de los centros de datos. Si resulta que esa previsibilidad puede transformarse en una gestión del almacenamiento todavía más inteligente, Sandook o sistemas similares podrían obtener un campo de aplicación aún más amplio.
Según el MIT, la investigación fue financiada en parte con fondos de la National Science Foundation de Estados Unidos, la agencia DARPA y la organización Semiconductor Research Corporation. En un momento en que la industria de la inteligencia artificial y de la infraestructura en la nube busca formas de resistir el crecimiento de la demanda sin una expansión infinita de la base de hardware, trabajos como este atraen atención precisamente porque ofrecen una respuesta diferente: no necesariamente más máquinas, sino un uso más inteligente de las que ya están funcionando.
Fuentes:- MIT News – artículo original sobre el sistema Sandook, los autores de la investigación, los resultados de las pruebas y la presentación prevista del trabajo (enlace)- USENIX NSDI 2026 – página oficial del trabajo Unleashing the Potential of Datacenter SSDs by Taming Performance Variability con la lista de autores y el contexto de la conferencia (enlace)- USENIX NSDI 2026 – página oficial de la conferencia con las fechas y la ubicación del simposio (enlace)- Proyecto Sandook en GitHub – repositorio públicamente disponible con datos técnicos sobre el entorno de pruebas y la implementación del sistema (enlace)
Encuentra alojamiento cerca
Hora de creación: 2 horas antes