Postavke privatnosti

MIT y la inteligencia artificial generativa: cómo los robots usan señales inalámbricas para ver objetos y habitaciones ocultos

Descubre cómo los investigadores del MIT combinaron la inteligencia artificial generativa y las señales mmWave inalámbricas para que los robots detecten con más precisión objetos ocultos y reconstruyan habitaciones sin cámaras. Ofrecemos una visión general de la tecnología, sus posibles aplicaciones y las razones por las que podría cambiar la robótica.

MIT y la inteligencia artificial generativa: cómo los robots usan señales inalámbricas para ver objetos y habitaciones ocultos
Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

La inteligencia artificial generativa ayuda a los robots a "ver" a través de los obstáculos: el MIT presentó un sistema que reconstruye objetos ocultos y habitaciones enteras a partir de reflejos inalámbricos

Investigadores del Massachusetts Institute of Technology presentaron una nueva generación de "visión" inalámbrica que podría cambiar de forma importante la manera en que los robots encuentran objetos, se orientan en espacios cerrados y trabajan junto a las personas. En el centro de su trabajo está la combinación de ondas milimétricas, un tipo de señal inalámbrica que también se utiliza en los sistemas de comunicación modernos, con inteligencia artificial generativa que complementa lo que el sensor no puede registrar directamente. El resultado son dos técnicas que, a partir de señales reflejadas, pueden reconstruir con mayor precisión la forma de un objeto oculto, pero también la disposición de una habitación entera con muebles, y ello sin cámaras clásicas y sin necesidad de que el sensor esté colocado en un robot móvil. El MIT anunció que ambos trabajos se presentarán en la conferencia IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026, que se celebrará del 3 al 7 de junio de 2026 en Denver.

Aunque la idea de "ver a través de los obstáculos" suena a ciencia ficción, se trata de un campo en el que el laboratorio del profesor Fadel Adib trabaja desde hace más de una década. Su grupo de investigación Signal Kinetics en el MIT Media Lab y en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación desarrolla sistemas que utilizan señales inalámbricas para percibir el mundo en situaciones en las que la visión humana y las cámaras clásicas son limitadas. Según el MIT, esta nueva fase del trabajo no es solo una mejora técnica de los métodos anteriores, sino una especie de salto cualitativo: de reconstrucciones parciales hacia la comprensión de reflejos complejos y la creación de una imagen más completa de objetos y espacios que están ocultos a la vista directa.

Cómo funciona el sistema cuando el objeto está fuera de la vista

Los sistemas anteriores del MIT se apoyaban en ondas milimétricas, es decir, señales mmWave, que pueden atravesar obstáculos habituales como paneles de yeso, plástico, cartón o tela y rebotar en un objeto oculto. A partir de esos reflejos es posible estimar dónde se encuentra el objeto y determinar parcialmente su forma. El problema surge porque esas ondas suelen reflejarse de manera especular, en una sola dirección dominante. Debido a ello, el sensor normalmente "ve" solo una parte de la superficie, por ejemplo la cara superior del objeto, mientras que los lados y la parte inferior quedan fuera del alcance de la medición. Precisamente esa geometría incompleta fue durante años una de las principales limitaciones de la percepción 3D inalámbrica.

El nuevo sistema del MIT, Wave-Former, intenta resolver precisamente ese problema. En lugar de detenerse en una reconstrucción aproximada e incompleta, el sistema primero propone posibles superficies del objeto a partir de los reflejos disponibles, luego deja que un modelo generativo complete su forma y, después, refina aún más el resultado. En otras palabras, el sensor proporciona información parcial y el modelo aprende a inferir a partir de esos fragmentos la forma 3D completa más probable. Los investigadores subrayan que el modelo no funciona de forma arbitraria y no "inventa" geometría sin base, sino que está entrenado para tener en cuenta las propiedades físicas de los reflejos mmWave y los patrones de ruido característicos de este tipo de mediciones.

Esto es importante porque en sistemas como estos es muy fácil cruzar la línea entre una estimación útil y la especulación. Precisamente por eso el equipo del MIT no trató la inteligencia artificial generativa como una herramienta mágica universal, sino que la vinculó al modelo físico de propagación de la señal. Dado que no existen enormes conjuntos de datos con grabaciones mmWave de objetos ocultos, los investigadores adaptaron conjuntos de datos existentes de visión por computadora para imitar la especularidad y el ruido característicos de los reflejos inalámbricos. Así, en lugar de dedicar años a recopilar una nueva base de datos, crearon un conjunto de datos sintético con el que el modelo pudo aprender cómo es la parte "faltante" de la forma cuando la información de entrada es incompleta y degradada.

Según el resumen del trabajo disponible en arXiv, Wave-Former aumentó el recall, en comparación directa con los mejores enfoques existentes, del 54 al 72 por ciento manteniendo una alta precisión del 85 por ciento. MIT News también describe ese avance en un plano práctico: el sistema reconstruyó fielmente unos 70 objetos cotidianos, entre ellos latas, cajas, cubiertos y fruta, mientras estaban ocultos detrás de cartón, madera, paneles de yeso, plástico y tela. En el contexto de la robótica, eso significa que una máquina ya no tendría que adivinar qué hay exactamente detrás de un obstáculo o dentro de una caja, sino que obtendría una estimación espacial más convincente del objeto antes de intentar agarrarlo, clasificarlo o comprobar su contenido.

Del objeto oculto al mapa de una habitación entera

El segundo sistema, llamado RISE, va un paso más allá y no se ocupa solo de un objeto, sino que intenta reconstruir todo un espacio interior. También en este caso la base son las señales mmWave, pero esta vez los investigadores utilizan el hecho de que las personas se mueven por la habitación. Cuando una persona se mueve, parte de la señal rebota en ella, después vuelve a rebotar en las paredes o en los muebles y solo entonces regresa al sensor. Tradicionalmente, esos reflejos secundarios se consideraban interferencia o "fantasmas" en la señal, porque crean copias falsas o desplazadas del reflejo original. El enfoque del MIT parte de la suposición contraria: esos "fantasmas" en realidad contienen información sobre la distribución del espacio.

En otras palabras, lo que antes se descartaba como ruido se convierte en una fuente de datos. RISE observa cómo cambian los reflejos secundarios mientras una persona se mueve por la habitación y, a partir de esos cambios, construye una imagen espacial aproximada. Luego, un modelo generativo rellena los huecos y mejora la resolución de la reconstrucción inicial. Según el resumen de arXiv, se trata del primer sistema y del primer benchmark para comprender espacios interiores mediante un único radar estático, al tiempo que el sistema apunta simultáneamente a la reconstrucción de la distribución espacial y a la detección de objetos. Los investigadores señalan que su conjunto de datos contiene 50.000 imágenes recogidas a lo largo de más de 100 trayectorias reales de movimiento en interiores.

En los resultados que publicaron, RISE redujo la distancia de Chamfer, una medida del error en la reconstrucción de la geometría, en un 60 por ciento, hasta 16 centímetros, en comparación con los métodos anteriores. Además, el trabajo también informa de un 58 por ciento de IoU para la detección de objetos, algo que los autores describen como el primer resultado de este tipo en la comprensión de habitaciones mediante mmWave basada en un único radar estático. MIT News resume ese avance de forma más sencilla: las escenas reconstruidas fueron aproximadamente el doble de precisas que las técnicas existentes. No es el nivel de detalle que ofrecen las cámaras o el LiDAR, pero sí es un avance muy importante para situaciones en las que los sensores ópticos tienen limitaciones debido a la oclusión, la mala visibilidad o las cuestiones de privacidad.

Por qué el MIT habla de privacidad y no solo de robótica

En ambos trabajos también se subraya con fuerza una dimensión socialmente sensible: la privacidad. Los sistemas clásicos para comprender espacios interiores suelen basarse en cámaras, sensores de profundidad o LiDAR, que pueden ofrecer una imagen muy detallada de una persona, de su aspecto, de su rostro y de su comportamiento. El enfoque inalámbrico que desarrolla el MIT no trabaja con la identidad visual de una persona, sino con señales reflejadas a partir de las cuales se infiere la geometría del espacio y la posición del cuerpo en relación con el entorno. Eso no significa que toda duda sobre la privacidad quede resuelta automáticamente, pero sí significa que el diseño básico del sistema es menos intrusivo que la grabación constante en video de los interiores.

En la práctica, una diferencia así podría ser importante en residencias para personas mayores, hogares inteligentes, hospitales, almacenes e instalaciones industriales. Un robot que necesita saber si hay una persona detrás de una esquina, si un paso está libre o dónde se ha dejado un objeto no necesariamente tiene que tener una cámara que grabe constantemente todo lo que ocurre. Precisamente por eso los autores del MIT ponen en primer plano escenarios de colaboración entre humanos y máquinas, un movimiento más seguro de los robots en espacios cerrados y una mejor comprensión de la habitación sin vigilancia visual clásica.

Posibles aplicaciones: de la logística al hogar inteligente

Las aplicaciones comerciales más directas se ven en la logística y en los almacenes. Si un robot puede estimar con mayor fiabilidad el contenido de un paquete o la forma de un objeto oculto dentro de un embalaje de cartón, resulta más fácil comprobar si un pedido se ha empaquetado correctamente antes del envío. En su comunicado, el MIT menciona como uno de los ejemplos la reducción de los residuos asociados a las devoluciones de mercancías, lo que es un tema especialmente sensible en el comercio electrónico, donde los productos entregados de forma incorrecta generan coste, transporte adicional y una acumulación innecesaria de embalajes. En un almacén, esto también abre la posibilidad de que un robot obtenga una estimación más realista de la forma de un objeto oculto detrás de otras cajas o debajo del material de embalaje antes de la propia manipulación.

Otro grupo de aplicaciones se refiere a los robots domésticos y de servicio. Un sistema que, sin cámara, pueda estimar dónde está una persona en una habitación, hacia dónde se mueve y cómo es la disposición de los muebles podría ser útil para la navegación de robots de asistencia, especialmente en condiciones domésticas dinámicas. En ese entorno, los obstáculos no son estáticos: las puertas se abren, las sillas cambian de posición, los objetos se quedan en el suelo y las personas están en constante movimiento. Para un robot que debe colaborar con una persona, no basta con que "vea" solo lo que está exactamente delante de él; también debe comprender lo que está parcialmente oculto, así como la disposición más amplia de la escena.

No obstante, conviene subrayar que el MIT no afirma que se trate de un producto comercial terminado y listo para el mercado masivo. Se trata de sistemas de investigación presentados en una conferencia científica, con resultados que muestran la dirección del desarrollo, pero que siguen dejando abiertas cuestiones sobre el coste del equipo, la robustez en distintas condiciones reales, la velocidad de funcionamiento y la posible integración con otros tipos de sensores. El propio grupo de investigación señala que quiere aumentar la granularidad y el detalle de las reconstrucciones y, en el futuro, construir modelos fundacionales más grandes para señales inalámbricas, análogos a lo que GPT, Claude o Gemini se han convertido para el lenguaje y la visión.

Quién está detrás del trabajo y por qué CVPR es importante

El autor principal de ambos trabajos es Fadel Adib, profesor asociado del MIT Media Lab y de EECS y líder del grupo Signal Kinetics. Según el MIT, en el trabajo sobre Wave-Former participaron Laura Dodds como autora principal junto con Maisy Lam, Waleed Akbar y Yibo Cheng, mientras que en el trabajo sobre RISE los autores son Kaichen Zhou, Laura Dodds, Sayed Saad Afzal y Fadel Adib. En la página oficial de Adib y en la lista de publicaciones, ambos trabajos aparecen como trabajos próximos para CVPR 2026. La propia conferencia CVPR se considera una de las reuniones mundiales más importantes en el campo de la visión por computadora y el reconocimiento de patrones, y la página oficial indica que la edición de este año se celebrará en el Colorado Convention Center de Denver del 3 al 7 de junio de 2026.

Esto también es relevante porque los trabajos del MIT no proceden de un entorno de laboratorio aislado, sino que entran en una arena científica internacional en la que se comparan con las tendencias más recientes en visión por computadora, modelos multimodales, robótica y sistemas de comprensión de escenas. En los últimos años, la inteligencia artificial generativa ha influido con fuerza en el procesamiento de imágenes, la reconstrucción 3D y el modelado espacial, pero la contribución del MIT consiste en aplicar esa ola a datos que no son fotografías clásicas, sino reflejos inalámbricos cargados de limitaciones físicas específicas. De este modo, la investigación no se posiciona solo como otra demostración de IA, sino como un intento de conectar modelos que aprenden con las leyes reales de la propagación de la señal.

Qué cambia realmente para los robots del futuro

El mayor cambio no es que los robots vayan a "ver a través de las paredes" de la forma en que a veces lo imagina la cultura popular. Mucho más importante es que podrían tomar menos decisiones erróneas en situaciones en las que hoy trabajan con información incompleta. En un almacén, eso puede significar menos intentos fallidos de agarre y menos daños a la mercancía. En el hogar, puede significar un movimiento más seguro cerca de personas, niños o mascotas. En un entorno industrial, puede significar una mejor comprensión de la zona detrás de un obstáculo sin instalar cámaras adicionales en cada punto del espacio.

El comunicado del MIT sugiere que, en este caso, la inteligencia artificial generativa no sirve solo para embellecer la imagen, sino para corregir la limitación profunda de la percepción inalámbrica: el sensor solo ve fragmentos y el modelo ayuda a inferir lo que falta. Si se logra ampliar aún más este enfoque y confirmarlo en distintos entornos, podría abrir una nueva clase de sistemas que combinen una percepción menos invasiva para la privacidad con un uso práctico en robótica, logística y espacios inteligentes. Por ahora se trata de una investigación que todavía debe recorrer el camino desde el laboratorio hasta la aplicación amplia, pero los resultados publicados muestran que la frontera entre lo que está oculto y lo que una máquina es capaz de comprender se está desplazando poco a poco, pero de forma visible.

Fuentes:
- MIT News – publicación sobre los nuevos sistemas Wave-Former y RISE, los autores, las aplicaciones y la fecha de presentación en CVPR (enlace)
- CVPR 2026 – página oficial de la conferencia con las fechas y la ubicación del evento (enlace)
- MIT / Fadel Adib – página oficial del investigador y del grupo Signal Kinetics con una visión general del trabajo sobre percepción inalámbrica y la lista de próximos trabajos (enlace)
- arXiv – resumen del trabajo "Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion" con el método y los resultados (enlace)
- arXiv – resumen del trabajo "RISE: Single Static Radar-based Indoor Scene Understanding" con la descripción del benchmark y las métricas de rendimiento (enlace)

Encuentra alojamiento cerca

Hora de creación: 3 horas antes

Redacción de ciencia y tecnología

Nuestra Redacción de Ciencia y Tecnología nació de una pasión de muchos años por investigar, interpretar y acercar temas complejos a los lectores comunes. En ella escriben empleados y voluntarios que llevan décadas siguiendo el desarrollo de la ciencia y la innovación tecnológica, desde descubrimientos de laboratorio hasta soluciones que transforman la vida cotidiana. Aunque escribimos en plural, detrás de cada texto hay una persona real con amplia experiencia editorial y periodística, y un profundo respeto por los hechos y la información verificable.

Nuestra redacción fundamenta su trabajo en la convicción de que la ciencia es más fuerte cuando es accesible para todos. Por eso buscamos claridad, precisión y comprensión, sin simplificaciones que puedan perjudicar la calidad del contenido. A menudo pasamos horas estudiando investigaciones, documentos técnicos y fuentes especializadas para presentar cada tema de una forma que interese al lector sin sobrecargarlo. En cada artículo intentamos conectar el conocimiento científico con la vida real, mostrando cómo las ideas surgidas de centros de investigación, universidades y laboratorios tecnológicos moldean el mundo que nos rodea.

Nuestra larga experiencia periodística nos permite reconocer lo que realmente importa al lector, ya se trate de avances en inteligencia artificial, descubrimientos médicos, soluciones energéticas, misiones espaciales o dispositivos que entran en nuestra vida cotidiana antes de que podamos imaginar sus posibilidades. Nuestra mirada sobre la tecnología no es solo técnica; también nos interesan las historias humanas detrás de los grandes avances: investigadores que trabajan durante años para completar proyectos, ingenieros que convierten ideas en sistemas funcionales y visionarios que amplían los límites de lo posible.

En nuestro trabajo también nos guía un fuerte sentido de responsabilidad. Queremos que el lector pueda confiar en la información que ofrecemos, por lo que verificamos fuentes, comparamos datos y no publicamos con prisa cuando algo no está completamente claro. La confianza se construye más lentamente de lo que se escribe una noticia, pero creemos que solo este tipo de periodismo tiene un valor duradero.

Para nosotros, la tecnología es más que dispositivos y la ciencia más que teoría. Son campos que impulsan el progreso, moldean la sociedad y ofrecen nuevas oportunidades a quienes desean comprender cómo funciona el mundo hoy y hacia dónde se dirige mañana. Por eso abordamos cada tema con seriedad, pero también con curiosidad, porque la curiosidad abre la puerta a los mejores textos.

Nuestra misión es acercar a los lectores a un mundo que cambia más rápido que nunca, con la convicción de que el periodismo de calidad puede ser un puente entre expertos, innovadores y todos aquellos que desean entender lo que ocurre detrás de los titulares. En esto vemos nuestra verdadera tarea: convertir lo complejo en comprensible, lo lejano en cercano y lo desconocido en inspirador.

AVISO PARA NUESTROS LECTORES
Karlobag.eu ofrece noticias, análisis e información sobre eventos globales y temas de interés para lectores de todo el mundo. Toda la información publicada se ofrece únicamente con fines informativos.
Destacamos que no somos expertos en los ámbitos científico, médico, financiero ni legal. Por lo tanto, antes de tomar decisiones basadas en la información de nuestro portal, le recomendamos que consulte a expertos cualificados.
Karlobag.eu puede contener enlaces a sitios externos de terceros, incluidos enlaces de afiliados y contenidos patrocinados. Si compra un producto o servicio a través de estos enlaces, podemos recibir una comisión. No tenemos control sobre el contenido o las políticas de dichos sitios y no asumimos responsabilidad alguna por su exactitud, disponibilidad o por cualquier transacción realizada a través de ellos.
Si publicamos información sobre eventos o venta de entradas, tenga en cuenta que no vendemos entradas ni directamente ni a través de intermediarios. Nuestro portal informa únicamente a los lectores sobre eventos y oportunidades de compra a través de plataformas de venta externas. Conectamos a los lectores con socios que ofrecen servicios de venta de entradas, pero no garantizamos su disponibilidad, precios o condiciones de compra. Toda la información sobre las entradas es obtenida de terceros y puede estar sujeta a cambios sin previo aviso. Le recomendamos que verifique detenidamente las condiciones de venta con el socio seleccionado antes de realizar cualquier compra.
Toda la información en nuestro portal está sujeta a cambios sin previo aviso. Al utilizar este portal, usted acepta leer el contenido bajo su propio riesgo.