La inteligencia artificial generativa ayuda a los robots a "ver" a través de los obstáculos: el MIT presentó un sistema que reconstruye objetos ocultos y habitaciones enteras a partir de reflejos inalámbricos
Investigadores del Massachusetts Institute of Technology presentaron una nueva generación de "visión" inalámbrica que podría cambiar de forma importante la manera en que los robots encuentran objetos, se orientan en espacios cerrados y trabajan junto a las personas. En el centro de su trabajo está la combinación de ondas milimétricas, un tipo de señal inalámbrica que también se utiliza en los sistemas de comunicación modernos, con inteligencia artificial generativa que complementa lo que el sensor no puede registrar directamente. El resultado son dos técnicas que, a partir de señales reflejadas, pueden reconstruir con mayor precisión la forma de un objeto oculto, pero también la disposición de una habitación entera con muebles, y ello sin cámaras clásicas y sin necesidad de que el sensor esté colocado en un robot móvil. El MIT anunció que ambos trabajos se presentarán en la conferencia IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026, que se celebrará del 3 al 7 de junio de 2026 en Denver.
Aunque la idea de "ver a través de los obstáculos" suena a ciencia ficción, se trata de un campo en el que el laboratorio del profesor Fadel Adib trabaja desde hace más de una década. Su grupo de investigación Signal Kinetics en el MIT Media Lab y en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación desarrolla sistemas que utilizan señales inalámbricas para percibir el mundo en situaciones en las que la visión humana y las cámaras clásicas son limitadas. Según el MIT, esta nueva fase del trabajo no es solo una mejora técnica de los métodos anteriores, sino una especie de salto cualitativo: de reconstrucciones parciales hacia la comprensión de reflejos complejos y la creación de una imagen más completa de objetos y espacios que están ocultos a la vista directa.
Cómo funciona el sistema cuando el objeto está fuera de la vista
Los sistemas anteriores del MIT se apoyaban en ondas milimétricas, es decir, señales mmWave, que pueden atravesar obstáculos habituales como paneles de yeso, plástico, cartón o tela y rebotar en un objeto oculto. A partir de esos reflejos es posible estimar dónde se encuentra el objeto y determinar parcialmente su forma. El problema surge porque esas ondas suelen reflejarse de manera especular, en una sola dirección dominante. Debido a ello, el sensor normalmente "ve" solo una parte de la superficie, por ejemplo la cara superior del objeto, mientras que los lados y la parte inferior quedan fuera del alcance de la medición. Precisamente esa geometría incompleta fue durante años una de las principales limitaciones de la percepción 3D inalámbrica.
El nuevo sistema del MIT, Wave-Former, intenta resolver precisamente ese problema. En lugar de detenerse en una reconstrucción aproximada e incompleta, el sistema primero propone posibles superficies del objeto a partir de los reflejos disponibles, luego deja que un modelo generativo complete su forma y, después, refina aún más el resultado. En otras palabras, el sensor proporciona información parcial y el modelo aprende a inferir a partir de esos fragmentos la forma 3D completa más probable. Los investigadores subrayan que el modelo no funciona de forma arbitraria y no "inventa" geometría sin base, sino que está entrenado para tener en cuenta las propiedades físicas de los reflejos mmWave y los patrones de ruido característicos de este tipo de mediciones.
Esto es importante porque en sistemas como estos es muy fácil cruzar la línea entre una estimación útil y la especulación. Precisamente por eso el equipo del MIT no trató la inteligencia artificial generativa como una herramienta mágica universal, sino que la vinculó al modelo físico de propagación de la señal. Dado que no existen enormes conjuntos de datos con grabaciones mmWave de objetos ocultos, los investigadores adaptaron conjuntos de datos existentes de visión por computadora para imitar la especularidad y el ruido característicos de los reflejos inalámbricos. Así, en lugar de dedicar años a recopilar una nueva base de datos, crearon un conjunto de datos sintético con el que el modelo pudo aprender cómo es la parte "faltante" de la forma cuando la información de entrada es incompleta y degradada.
Según el resumen del trabajo disponible en arXiv, Wave-Former aumentó el recall, en comparación directa con los mejores enfoques existentes, del 54 al 72 por ciento manteniendo una alta precisión del 85 por ciento. MIT News también describe ese avance en un plano práctico: el sistema reconstruyó fielmente unos 70 objetos cotidianos, entre ellos latas, cajas, cubiertos y fruta, mientras estaban ocultos detrás de cartón, madera, paneles de yeso, plástico y tela. En el contexto de la robótica, eso significa que una máquina ya no tendría que adivinar qué hay exactamente detrás de un obstáculo o dentro de una caja, sino que obtendría una estimación espacial más convincente del objeto antes de intentar agarrarlo, clasificarlo o comprobar su contenido.
Del objeto oculto al mapa de una habitación entera
El segundo sistema, llamado RISE, va un paso más allá y no se ocupa solo de un objeto, sino que intenta reconstruir todo un espacio interior. También en este caso la base son las señales mmWave, pero esta vez los investigadores utilizan el hecho de que las personas se mueven por la habitación. Cuando una persona se mueve, parte de la señal rebota en ella, después vuelve a rebotar en las paredes o en los muebles y solo entonces regresa al sensor. Tradicionalmente, esos reflejos secundarios se consideraban interferencia o "fantasmas" en la señal, porque crean copias falsas o desplazadas del reflejo original. El enfoque del MIT parte de la suposición contraria: esos "fantasmas" en realidad contienen información sobre la distribución del espacio.
En otras palabras, lo que antes se descartaba como ruido se convierte en una fuente de datos. RISE observa cómo cambian los reflejos secundarios mientras una persona se mueve por la habitación y, a partir de esos cambios, construye una imagen espacial aproximada. Luego, un modelo generativo rellena los huecos y mejora la resolución de la reconstrucción inicial. Según el resumen de arXiv, se trata del primer sistema y del primer benchmark para comprender espacios interiores mediante un único radar estático, al tiempo que el sistema apunta simultáneamente a la reconstrucción de la distribución espacial y a la detección de objetos. Los investigadores señalan que su conjunto de datos contiene 50.000 imágenes recogidas a lo largo de más de 100 trayectorias reales de movimiento en interiores.
En los resultados que publicaron, RISE redujo la distancia de Chamfer, una medida del error en la reconstrucción de la geometría, en un 60 por ciento, hasta 16 centímetros, en comparación con los métodos anteriores. Además, el trabajo también informa de un 58 por ciento de IoU para la detección de objetos, algo que los autores describen como el primer resultado de este tipo en la comprensión de habitaciones mediante mmWave basada en un único radar estático. MIT News resume ese avance de forma más sencilla: las escenas reconstruidas fueron aproximadamente el doble de precisas que las técnicas existentes. No es el nivel de detalle que ofrecen las cámaras o el LiDAR, pero sí es un avance muy importante para situaciones en las que los sensores ópticos tienen limitaciones debido a la oclusión, la mala visibilidad o las cuestiones de privacidad.
Por qué el MIT habla de privacidad y no solo de robótica
En ambos trabajos también se subraya con fuerza una dimensión socialmente sensible: la privacidad. Los sistemas clásicos para comprender espacios interiores suelen basarse en cámaras, sensores de profundidad o LiDAR, que pueden ofrecer una imagen muy detallada de una persona, de su aspecto, de su rostro y de su comportamiento. El enfoque inalámbrico que desarrolla el MIT no trabaja con la identidad visual de una persona, sino con señales reflejadas a partir de las cuales se infiere la geometría del espacio y la posición del cuerpo en relación con el entorno. Eso no significa que toda duda sobre la privacidad quede resuelta automáticamente, pero sí significa que el diseño básico del sistema es menos intrusivo que la grabación constante en video de los interiores.
En la práctica, una diferencia así podría ser importante en residencias para personas mayores, hogares inteligentes, hospitales, almacenes e instalaciones industriales. Un robot que necesita saber si hay una persona detrás de una esquina, si un paso está libre o dónde se ha dejado un objeto no necesariamente tiene que tener una cámara que grabe constantemente todo lo que ocurre. Precisamente por eso los autores del MIT ponen en primer plano escenarios de colaboración entre humanos y máquinas, un movimiento más seguro de los robots en espacios cerrados y una mejor comprensión de la habitación sin vigilancia visual clásica.
Posibles aplicaciones: de la logística al hogar inteligente
Las aplicaciones comerciales más directas se ven en la logística y en los almacenes. Si un robot puede estimar con mayor fiabilidad el contenido de un paquete o la forma de un objeto oculto dentro de un embalaje de cartón, resulta más fácil comprobar si un pedido se ha empaquetado correctamente antes del envío. En su comunicado, el MIT menciona como uno de los ejemplos la reducción de los residuos asociados a las devoluciones de mercancías, lo que es un tema especialmente sensible en el comercio electrónico, donde los productos entregados de forma incorrecta generan coste, transporte adicional y una acumulación innecesaria de embalajes. En un almacén, esto también abre la posibilidad de que un robot obtenga una estimación más realista de la forma de un objeto oculto detrás de otras cajas o debajo del material de embalaje antes de la propia manipulación.
Otro grupo de aplicaciones se refiere a los robots domésticos y de servicio. Un sistema que, sin cámara, pueda estimar dónde está una persona en una habitación, hacia dónde se mueve y cómo es la disposición de los muebles podría ser útil para la navegación de robots de asistencia, especialmente en condiciones domésticas dinámicas. En ese entorno, los obstáculos no son estáticos: las puertas se abren, las sillas cambian de posición, los objetos se quedan en el suelo y las personas están en constante movimiento. Para un robot que debe colaborar con una persona, no basta con que "vea" solo lo que está exactamente delante de él; también debe comprender lo que está parcialmente oculto, así como la disposición más amplia de la escena.
No obstante, conviene subrayar que el MIT no afirma que se trate de un producto comercial terminado y listo para el mercado masivo. Se trata de sistemas de investigación presentados en una conferencia científica, con resultados que muestran la dirección del desarrollo, pero que siguen dejando abiertas cuestiones sobre el coste del equipo, la robustez en distintas condiciones reales, la velocidad de funcionamiento y la posible integración con otros tipos de sensores. El propio grupo de investigación señala que quiere aumentar la granularidad y el detalle de las reconstrucciones y, en el futuro, construir modelos fundacionales más grandes para señales inalámbricas, análogos a lo que GPT, Claude o Gemini se han convertido para el lenguaje y la visión.
Quién está detrás del trabajo y por qué CVPR es importante
El autor principal de ambos trabajos es Fadel Adib, profesor asociado del MIT Media Lab y de EECS y líder del grupo Signal Kinetics. Según el MIT, en el trabajo sobre Wave-Former participaron Laura Dodds como autora principal junto con Maisy Lam, Waleed Akbar y Yibo Cheng, mientras que en el trabajo sobre RISE los autores son Kaichen Zhou, Laura Dodds, Sayed Saad Afzal y Fadel Adib. En la página oficial de Adib y en la lista de publicaciones, ambos trabajos aparecen como trabajos próximos para CVPR 2026. La propia conferencia CVPR se considera una de las reuniones mundiales más importantes en el campo de la visión por computadora y el reconocimiento de patrones, y la página oficial indica que la edición de este año se celebrará en el Colorado Convention Center de Denver del 3 al 7 de junio de 2026.
Esto también es relevante porque los trabajos del MIT no proceden de un entorno de laboratorio aislado, sino que entran en una arena científica internacional en la que se comparan con las tendencias más recientes en visión por computadora, modelos multimodales, robótica y sistemas de comprensión de escenas. En los últimos años, la inteligencia artificial generativa ha influido con fuerza en el procesamiento de imágenes, la reconstrucción 3D y el modelado espacial, pero la contribución del MIT consiste en aplicar esa ola a datos que no son fotografías clásicas, sino reflejos inalámbricos cargados de limitaciones físicas específicas. De este modo, la investigación no se posiciona solo como otra demostración de IA, sino como un intento de conectar modelos que aprenden con las leyes reales de la propagación de la señal.
Qué cambia realmente para los robots del futuro
El mayor cambio no es que los robots vayan a "ver a través de las paredes" de la forma en que a veces lo imagina la cultura popular. Mucho más importante es que podrían tomar menos decisiones erróneas en situaciones en las que hoy trabajan con información incompleta. En un almacén, eso puede significar menos intentos fallidos de agarre y menos daños a la mercancía. En el hogar, puede significar un movimiento más seguro cerca de personas, niños o mascotas. En un entorno industrial, puede significar una mejor comprensión de la zona detrás de un obstáculo sin instalar cámaras adicionales en cada punto del espacio.
El comunicado del MIT sugiere que, en este caso, la inteligencia artificial generativa no sirve solo para embellecer la imagen, sino para corregir la limitación profunda de la percepción inalámbrica: el sensor solo ve fragmentos y el modelo ayuda a inferir lo que falta. Si se logra ampliar aún más este enfoque y confirmarlo en distintos entornos, podría abrir una nueva clase de sistemas que combinen una percepción menos invasiva para la privacidad con un uso práctico en robótica, logística y espacios inteligentes. Por ahora se trata de una investigación que todavía debe recorrer el camino desde el laboratorio hasta la aplicación amplia, pero los resultados publicados muestran que la frontera entre lo que está oculto y lo que una máquina es capaz de comprender se está desplazando poco a poco, pero de forma visible.
Fuentes:- MIT News – publicación sobre los nuevos sistemas Wave-Former y RISE, los autores, las aplicaciones y la fecha de presentación en CVPR (enlace)- CVPR 2026 – página oficial de la conferencia con las fechas y la ubicación del evento (enlace)- MIT / Fadel Adib – página oficial del investigador y del grupo Signal Kinetics con una visión general del trabajo sobre percepción inalámbrica y la lista de próximos trabajos (enlace)- arXiv – resumen del trabajo "Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion" con el método y los resultados (enlace)- arXiv – resumen del trabajo "RISE: Single Static Radar-based Indoor Scene Understanding" con la descripción del benchmark y las métricas de rendimiento (enlace)
Encuentra alojamiento cerca
Hora de creación: 3 horas antes