L'intelligence artificielle générative aide les robots à "voir" à travers les obstacles : le MIT a présenté un système qui reconstruit des objets cachés et des pièces entières à partir de réflexions sans fil
Des chercheurs du Massachusetts Institute of Technology ont présenté une nouvelle génération de "vision" sans fil qui pourrait changer en profondeur la manière dont les robots trouvent des objets, se déplacent dans des espaces fermés et travaillent aux côtés des humains. Au cœur de leurs travaux se trouve la combinaison des ondes millimétriques, un type de signal sans fil également utilisé dans les systèmes de communication modernes, avec une intelligence artificielle générative qui complète ce que le capteur ne peut pas enregistrer directement. Le résultat est constitué de deux techniques capables de reconstruire plus précisément la forme d'un objet caché à partir de signaux réfléchis, mais aussi l'agencement d'une pièce entière avec son mobilier, et cela sans caméras classiques et sans qu'il soit nécessaire de placer le capteur sur un robot mobile. Le MIT a annoncé que les deux travaux seront présentés à la conférence IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026, qui se tiendra du 3 au 7 juin 2026 à Denver.
Même si l'idée de "voir à travers les obstacles" ressemble à de la science-fiction, il s'agit d'un domaine sur lequel le laboratoire du professeur Fadel Adib travaille depuis plus d'une décennie. Son groupe de recherche Signal Kinetics, au MIT Media Lab et au département d'électrotechnique et d'informatique, développe des systèmes qui utilisent des signaux sans fil pour percevoir le monde dans des situations où la vision humaine et les caméras classiques sont limitées. Selon le MIT, cette nouvelle phase de ces travaux n'est pas seulement une amélioration technique des méthodes précédentes, mais une sorte de saut qualitatif : on passe de reconstructions partielles à une compréhension de réflexions complexes et à la création d'une image plus complète des objets et des espaces qui sont masqués à la vue directe.
Comment le système fonctionne lorsque l'objet est hors de vue
Les anciens systèmes du MIT reposaient sur des ondes millimétriques, c'est-à-dire des signaux mmWave, qui peuvent traverser des obstacles courants comme les cloisons sèches, le plastique, le carton ou le tissu et se réfléchir sur un objet caché. À partir de ces réflexions, il est possible d'estimer où se trouve l'objet et de déterminer partiellement sa forme. Le problème vient du fait que de telles ondes se réfléchissent souvent de manière spéculaire, dans une seule direction dominante. Pour cette raison, le capteur "voit" généralement seulement une partie de la surface, par exemple la face supérieure de l'objet, tandis que les faces latérales et inférieures restent hors de portée de la mesure. C'est précisément cette géométrie incomplète qui, pendant des années, a constitué l'une des principales limites de la perception 3D sans fil.
Le nouveau système du MIT, Wave-Former, tente justement de résoudre ce problème. Au lieu de s'arrêter à une reconstruction grossière et incomplète, le système propose d'abord des surfaces possibles de l'objet à partir des réflexions disponibles, confie ensuite à un modèle génératif le soin d'achever sa forme, puis affine encore le résultat. Autrement dit, le capteur fournit des informations partielles, et le modèle apprend à déduire à partir de ces fragments la forme 3D complète la plus probable. Les chercheurs soulignent que le modèle ne fonctionne pas de manière arbitraire et n'"invente" pas une géométrie sans fondement, mais qu'il est entraîné à prendre en compte les propriétés physiques des réflexions mmWave et les motifs de bruit caractéristiques de telles mesures.
C'est important, car dans ce type de systèmes il est très facile de franchir la limite entre une estimation utile et la spéculation. C'est précisément pour cela que l'équipe du MIT n'a pas traité l'intelligence artificielle générative comme un outil magique universel, mais l'a liée au modèle physique de propagation du signal. Comme il n'existe pas d'énormes ensembles de données contenant des enregistrements mmWave d'objets cachés, les chercheurs ont adapté des ensembles de données existants en vision par ordinateur pour imiter la spécularité et le bruit caractéristiques des réflexions sans fil. Ainsi, au lieu de passer des années à constituer une nouvelle base de données, ils ont créé un ensemble de données synthétique sur lequel le modèle a pu apprendre à quoi ressemble la partie "manquante" de la forme lorsque l'information d'entrée est incomplète et dégradée.
Selon le résumé de l'article disponible sur arXiv, Wave-Former a, en comparaison directe avec les meilleures approches existantes, augmenté le rappel, c'est-à-dire le recall, de 54 à 72 pour cent tout en conservant une précision élevée de 85 pour cent. MIT News décrit aussi cette avancée sur le plan pratique : le système a reconstruit fidèlement environ 70 objets du quotidien, parmi lesquels des canettes, des boîtes, des couverts et des fruits, alors qu'ils étaient cachés derrière du carton, du bois, des cloisons sèches, du plastique et du tissu. Dans le contexte de la robotique, cela signifie qu'une machine n'aurait plus à deviner ce qui se trouve exactement derrière un obstacle ou dans une boîte, mais disposerait d'une estimation spatiale plus convaincante de l'objet avant de tenter une saisie, un tri ou une vérification du contenu.
De l'objet caché à la carte d'une pièce entière
Le deuxième système, appelé RISE, va un pas plus loin et ne s'intéresse pas seulement à un seul objet, mais tente de reconstruire un espace intérieur entier. Là aussi, la base repose sur les signaux mmWave, mais cette fois les chercheurs utilisent le fait que les personnes se déplacent dans la pièce. Lorsqu'une personne bouge, une partie du signal se réfléchit sur elle, puis de nouveau sur les murs ou le mobilier, avant de revenir enfin au capteur. De telles réflexions secondaires ont traditionnellement été considérées comme des interférences ou des "fantômes" dans le signal, car elles créent de fausses copies ou des copies décalées de la réflexion d'origine. L'approche du MIT part de l'hypothèse inverse : ces "fantômes" transportent en réalité des informations sur l'agencement de l'espace.
Autrement dit, ce qui était auparavant rejeté comme du bruit devient une source de données. RISE observe comment les réflexions secondaires évoluent lorsqu'une personne se déplace dans la pièce et construit à partir de ces variations une image spatiale grossière. Ensuite, un modèle génératif comble les lacunes et améliore la résolution de la reconstruction initiale. Selon le résumé arXiv, il s'agit du premier système et du premier benchmark pour la compréhension des espaces intérieurs à l'aide d'un unique radar statique, le système visant simultanément la reconstruction de l'agencement spatial et la détection d'objets. Les chercheurs indiquent que leur ensemble de données contient 50 000 images recueillies au cours de plus de 100 trajectoires réelles de déplacement dans des intérieurs.
Dans les résultats qu'ils ont publiés, RISE a réduit la distance de Chamfer, une mesure de l'erreur dans la reconstruction de la géométrie, de 60 pour cent, à 16 centimètres, par rapport aux méthodes précédentes. En outre, l'article indique également 58 pour cent d'IoU pour la détection d'objets, ce que les auteurs décrivent comme le premier résultat de ce type dans la compréhension d'une pièce par mmWave fondée sur un unique radar statique. MIT News résume ce progrès plus simplement : les scènes reconstruites étaient environ deux fois plus précises que les techniques existantes. Ce n'est pas le niveau de détail fourni par les caméras ou le LiDAR, mais c'est une avancée très importante pour les situations dans lesquelles les capteurs optiques ont des limites à cause des occultations, de la mauvaise visibilité ou des questions de vie privée.
Pourquoi le MIT parle de vie privée, et pas seulement de robotique
Les deux travaux mettent aussi fortement en avant une dimension socialement sensible : la vie privée. Les systèmes classiques de compréhension des espaces intérieurs s'appuient souvent sur des caméras, des capteurs de profondeur ou le LiDAR, qui peuvent fournir une image très détaillée d'une personne, de son apparence, de son visage et de son comportement. L'approche sans fil développée par le MIT ne travaille pas avec l'identité visuelle d'une personne, mais avec des signaux réfléchis à partir desquels on déduit la géométrie de l'espace et la position du corps par rapport à l'environnement. Cela ne signifie pas que toute question liée à la vie privée soit automatiquement résolue, mais cela signifie que la conception de base du système est moins intrusive qu'un enregistrement vidéo permanent des intérieurs.
En pratique, une telle différence pourrait être importante dans les maisons de retraite, les maisons intelligentes, les hôpitaux, les entrepôts et les installations industrielles. Un robot qui doit savoir si une personne se trouve derrière un angle, si un passage est libre ou où un objet a été posé n'a pas nécessairement besoin d'avoir une caméra qui enregistre en permanence tout ce qui se passe. C'est précisément pour cela que les auteurs du MIT mettent en avant des scénarios de collaboration homme-machine, de déplacement plus sûr des robots dans des espaces fermés et de meilleure compréhension d'une pièce sans surveillance visuelle classique.
Applications possibles : de la logistique à la maison intelligente
Les applications commerciales les plus directes se voient dans la logistique et les entrepôts. Si un robot peut évaluer de manière plus fiable le contenu d'un colis ou la forme d'un objet caché à l'intérieur d'un emballage en carton, il devient plus facile de vérifier si une commande a été correctement emballée avant l'expédition. Dans sa publication, le MIT cite comme l'un des exemples la réduction des déchets liés aux retours de marchandises, ce qui est un sujet particulièrement sensible dans le commerce électronique, où des produits livrés par erreur entraînent des coûts, un transport supplémentaire et une accumulation inutile d'emballages. Dans un entrepôt, cela ouvre aussi la possibilité qu'un robot obtienne une estimation plus réaliste de la forme d'un objet caché derrière d'autres cartons ou sous du matériau d'emballage avant même la manipulation proprement dite.
Un autre groupe d'applications concerne les robots domestiques et de service. Un système capable, sans caméra, d'estimer où se trouve une personne dans une pièce, où elle se déplace et à quoi ressemble la disposition du mobilier pourrait être utile pour la navigation de robots d'assistance, en particulier dans des conditions domestiques dynamiques. Dans un tel environnement, les obstacles ne sont pas statiques : les portes s'ouvrent, les chaises changent de position, des objets restent sur le sol et les personnes se déplacent en permanence. Pour un robot qui doit collaborer avec un humain, il ne suffit pas seulement de "voir" ce qui se trouve exactement devant lui ; il doit aussi comprendre ce qui est partiellement masqué, ainsi que l'agencement plus large de la scène.
Il convient toutefois de souligner que le MIT ne prétend pas qu'il s'agit d'un produit commercial fini prêt pour le marché de masse. Il s'agit de systèmes de recherche présentés lors d'une conférence scientifique, avec des résultats qui montrent une direction de développement, mais qui laissent encore ouvertes des questions sur le coût de l'équipement, la robustesse dans différentes conditions réelles, la vitesse de fonctionnement et l'éventuelle intégration avec d'autres types de capteurs. Le groupe de recherche lui-même indique vouloir accroître la granularité et le niveau de détail des reconstructions et, à l'avenir, construire des modèles fondamentaux plus vastes pour les signaux sans fil, analogues à ce que GPT, Claude ou Gemini sont devenus pour le langage et la vision.
Qui est derrière ce travail et pourquoi le CVPR est important
L'auteur principal des deux travaux est Fadel Adib, professeur associé au MIT Media Lab et à l'EECS ainsi que responsable du groupe Signal Kinetics. Selon le MIT, Laura Dodds a participé au travail sur Wave-Former en tant qu'autrice principale, avec Maisy Lam, Waleed Akbar et Yibo Cheng, tandis que les auteurs du travail sur RISE sont Kaichen Zhou, Laura Dodds, Sayed Saad Afzal et Fadel Adib. Sur la page officielle d'Adib et dans la liste de ses publications, les deux travaux sont indiqués comme des travaux à paraître pour le CVPR 2026. La conférence CVPR elle-même est considérée comme l'un des plus importants rendez-vous mondiaux dans le domaine de la vision par ordinateur et de la reconnaissance des formes, et le site officiel indique que l'édition de cette année se tiendra au Colorado Convention Center à Denver du 3 au 7 juin 2026.
Cela est également pertinent parce que les travaux du MIT ne viennent pas d'un environnement de laboratoire isolé, mais entrent dans une arène scientifique internationale où ils sont comparés aux tendances les plus récentes en vision par ordinateur, modèles multimodaux, robotique et systèmes de compréhension de scène. Au cours des dernières années, l'intelligence artificielle générative a fortement influencé le traitement d'image, la reconstruction 3D et la modélisation de l'espace, mais la contribution du MIT réside dans le fait qu'elle applique cette vague à des données qui ne sont pas des photographies classiques, mais des réflexions sans fil chargées de contraintes physiques spécifiques. Ainsi, la recherche ne se positionne pas seulement comme une simple démonstration d'IA de plus, mais comme une tentative de relier des modèles apprenants aux lois réelles de la propagation du signal.
Ce qui change réellement pour les robots du futur
Le plus grand changement n'est pas que les robots vont soudainement "voir à travers les murs" comme la culture populaire l'imagine parfois. Il est bien plus important qu'ils puissent prendre moins de mauvaises décisions dans des situations où ils travaillent aujourd'hui avec des informations incomplètes. Dans un entrepôt, cela peut signifier moins de prises ratées et moins de dommages aux marchandises. À la maison, cela peut signifier des déplacements plus sûrs près des personnes, des enfants ou des animaux domestiques. Dans un environnement industriel, cela peut signifier une meilleure compréhension de la zone derrière un obstacle sans installer des caméras supplémentaires à chaque point de l'espace.
La publication du MIT suggère que, dans ce cas, l'intelligence artificielle générative ne sert pas seulement à embellir l'image, mais à corriger la limitation fondamentale de la perception sans fil : le capteur ne voit que des fragments, et le modèle aide à déduire ce qui manque. Si cette approche parvient à être davantage mise à l'échelle et validée dans différents environnements, elle pourrait ouvrir une nouvelle classe de systèmes combinant une perception moins intrusive pour la vie privée avec une utilisation pratique en robotique, en logistique et dans les espaces intelligents. Pour l'instant, il s'agit d'une recherche qui doit encore parcourir le chemin du laboratoire à l'application à grande échelle, mais les résultats publiés montrent que la frontière entre ce qui est caché et ce qu'une machine est capable de comprendre se déplace lentement, mais visiblement.
Sources :- MIT News – publication sur les nouveaux systèmes Wave-Former et RISE, les auteurs, les applications et la date de présentation au CVPR (lien)- CVPR 2026 – site officiel de la conférence avec les dates et le lieu de l'événement (lien)- MIT / Fadel Adib – site officiel du chercheur et du groupe Signal Kinetics avec un aperçu des travaux sur la perception sans fil et la liste des travaux à paraître (lien)- arXiv – résumé de l'article "Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion" avec la méthode et les résultats (lien)- arXiv – résumé de l'article "RISE: Single Static Radar-based Indoor Scene Understanding" avec la description du benchmark et les mesures de performance (lien)
Trouvez un hébergement à proximité
Heure de création: 3 heures avant