Postavke privatnosti

Le MIT et l'intelligence artificielle générative : comment les robots voient des objets cachés et des pièces grâce à des signaux sans fil

Découvrez comment les chercheurs du MIT ont combiné l'intelligence artificielle générative et les signaux mmWave sans fil afin que les robots détectent plus précisément des objets cachés et reconstruisent des pièces sans caméras. Nous proposons un aperçu de la technologie, des applications possibles et des raisons pour lesquelles elle pourrait transformer la robotique.

Le MIT et l
Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

L'intelligence artificielle générative aide les robots à "voir" à travers les obstacles : le MIT a présenté un système qui reconstruit des objets cachés et des pièces entières à partir de réflexions sans fil

Des chercheurs du Massachusetts Institute of Technology ont présenté une nouvelle génération de "vision" sans fil qui pourrait changer en profondeur la manière dont les robots trouvent des objets, se déplacent dans des espaces fermés et travaillent aux côtés des humains. Au cœur de leurs travaux se trouve la combinaison des ondes millimétriques, un type de signal sans fil également utilisé dans les systèmes de communication modernes, avec une intelligence artificielle générative qui complète ce que le capteur ne peut pas enregistrer directement. Le résultat est constitué de deux techniques capables de reconstruire plus précisément la forme d'un objet caché à partir de signaux réfléchis, mais aussi l'agencement d'une pièce entière avec son mobilier, et cela sans caméras classiques et sans qu'il soit nécessaire de placer le capteur sur un robot mobile. Le MIT a annoncé que les deux travaux seront présentés à la conférence IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026, qui se tiendra du 3 au 7 juin 2026 à Denver.

Même si l'idée de "voir à travers les obstacles" ressemble à de la science-fiction, il s'agit d'un domaine sur lequel le laboratoire du professeur Fadel Adib travaille depuis plus d'une décennie. Son groupe de recherche Signal Kinetics, au MIT Media Lab et au département d'électrotechnique et d'informatique, développe des systèmes qui utilisent des signaux sans fil pour percevoir le monde dans des situations où la vision humaine et les caméras classiques sont limitées. Selon le MIT, cette nouvelle phase de ces travaux n'est pas seulement une amélioration technique des méthodes précédentes, mais une sorte de saut qualitatif : on passe de reconstructions partielles à une compréhension de réflexions complexes et à la création d'une image plus complète des objets et des espaces qui sont masqués à la vue directe.

Comment le système fonctionne lorsque l'objet est hors de vue

Les anciens systèmes du MIT reposaient sur des ondes millimétriques, c'est-à-dire des signaux mmWave, qui peuvent traverser des obstacles courants comme les cloisons sèches, le plastique, le carton ou le tissu et se réfléchir sur un objet caché. À partir de ces réflexions, il est possible d'estimer où se trouve l'objet et de déterminer partiellement sa forme. Le problème vient du fait que de telles ondes se réfléchissent souvent de manière spéculaire, dans une seule direction dominante. Pour cette raison, le capteur "voit" généralement seulement une partie de la surface, par exemple la face supérieure de l'objet, tandis que les faces latérales et inférieures restent hors de portée de la mesure. C'est précisément cette géométrie incomplète qui, pendant des années, a constitué l'une des principales limites de la perception 3D sans fil.

Le nouveau système du MIT, Wave-Former, tente justement de résoudre ce problème. Au lieu de s'arrêter à une reconstruction grossière et incomplète, le système propose d'abord des surfaces possibles de l'objet à partir des réflexions disponibles, confie ensuite à un modèle génératif le soin d'achever sa forme, puis affine encore le résultat. Autrement dit, le capteur fournit des informations partielles, et le modèle apprend à déduire à partir de ces fragments la forme 3D complète la plus probable. Les chercheurs soulignent que le modèle ne fonctionne pas de manière arbitraire et n'"invente" pas une géométrie sans fondement, mais qu'il est entraîné à prendre en compte les propriétés physiques des réflexions mmWave et les motifs de bruit caractéristiques de telles mesures.

C'est important, car dans ce type de systèmes il est très facile de franchir la limite entre une estimation utile et la spéculation. C'est précisément pour cela que l'équipe du MIT n'a pas traité l'intelligence artificielle générative comme un outil magique universel, mais l'a liée au modèle physique de propagation du signal. Comme il n'existe pas d'énormes ensembles de données contenant des enregistrements mmWave d'objets cachés, les chercheurs ont adapté des ensembles de données existants en vision par ordinateur pour imiter la spécularité et le bruit caractéristiques des réflexions sans fil. Ainsi, au lieu de passer des années à constituer une nouvelle base de données, ils ont créé un ensemble de données synthétique sur lequel le modèle a pu apprendre à quoi ressemble la partie "manquante" de la forme lorsque l'information d'entrée est incomplète et dégradée.

Selon le résumé de l'article disponible sur arXiv, Wave-Former a, en comparaison directe avec les meilleures approches existantes, augmenté le rappel, c'est-à-dire le recall, de 54 à 72 pour cent tout en conservant une précision élevée de 85 pour cent. MIT News décrit aussi cette avancée sur le plan pratique : le système a reconstruit fidèlement environ 70 objets du quotidien, parmi lesquels des canettes, des boîtes, des couverts et des fruits, alors qu'ils étaient cachés derrière du carton, du bois, des cloisons sèches, du plastique et du tissu. Dans le contexte de la robotique, cela signifie qu'une machine n'aurait plus à deviner ce qui se trouve exactement derrière un obstacle ou dans une boîte, mais disposerait d'une estimation spatiale plus convaincante de l'objet avant de tenter une saisie, un tri ou une vérification du contenu.

De l'objet caché à la carte d'une pièce entière

Le deuxième système, appelé RISE, va un pas plus loin et ne s'intéresse pas seulement à un seul objet, mais tente de reconstruire un espace intérieur entier. Là aussi, la base repose sur les signaux mmWave, mais cette fois les chercheurs utilisent le fait que les personnes se déplacent dans la pièce. Lorsqu'une personne bouge, une partie du signal se réfléchit sur elle, puis de nouveau sur les murs ou le mobilier, avant de revenir enfin au capteur. De telles réflexions secondaires ont traditionnellement été considérées comme des interférences ou des "fantômes" dans le signal, car elles créent de fausses copies ou des copies décalées de la réflexion d'origine. L'approche du MIT part de l'hypothèse inverse : ces "fantômes" transportent en réalité des informations sur l'agencement de l'espace.

Autrement dit, ce qui était auparavant rejeté comme du bruit devient une source de données. RISE observe comment les réflexions secondaires évoluent lorsqu'une personne se déplace dans la pièce et construit à partir de ces variations une image spatiale grossière. Ensuite, un modèle génératif comble les lacunes et améliore la résolution de la reconstruction initiale. Selon le résumé arXiv, il s'agit du premier système et du premier benchmark pour la compréhension des espaces intérieurs à l'aide d'un unique radar statique, le système visant simultanément la reconstruction de l'agencement spatial et la détection d'objets. Les chercheurs indiquent que leur ensemble de données contient 50 000 images recueillies au cours de plus de 100 trajectoires réelles de déplacement dans des intérieurs.

Dans les résultats qu'ils ont publiés, RISE a réduit la distance de Chamfer, une mesure de l'erreur dans la reconstruction de la géométrie, de 60 pour cent, à 16 centimètres, par rapport aux méthodes précédentes. En outre, l'article indique également 58 pour cent d'IoU pour la détection d'objets, ce que les auteurs décrivent comme le premier résultat de ce type dans la compréhension d'une pièce par mmWave fondée sur un unique radar statique. MIT News résume ce progrès plus simplement : les scènes reconstruites étaient environ deux fois plus précises que les techniques existantes. Ce n'est pas le niveau de détail fourni par les caméras ou le LiDAR, mais c'est une avancée très importante pour les situations dans lesquelles les capteurs optiques ont des limites à cause des occultations, de la mauvaise visibilité ou des questions de vie privée.

Pourquoi le MIT parle de vie privée, et pas seulement de robotique

Les deux travaux mettent aussi fortement en avant une dimension socialement sensible : la vie privée. Les systèmes classiques de compréhension des espaces intérieurs s'appuient souvent sur des caméras, des capteurs de profondeur ou le LiDAR, qui peuvent fournir une image très détaillée d'une personne, de son apparence, de son visage et de son comportement. L'approche sans fil développée par le MIT ne travaille pas avec l'identité visuelle d'une personne, mais avec des signaux réfléchis à partir desquels on déduit la géométrie de l'espace et la position du corps par rapport à l'environnement. Cela ne signifie pas que toute question liée à la vie privée soit automatiquement résolue, mais cela signifie que la conception de base du système est moins intrusive qu'un enregistrement vidéo permanent des intérieurs.

En pratique, une telle différence pourrait être importante dans les maisons de retraite, les maisons intelligentes, les hôpitaux, les entrepôts et les installations industrielles. Un robot qui doit savoir si une personne se trouve derrière un angle, si un passage est libre ou où un objet a été posé n'a pas nécessairement besoin d'avoir une caméra qui enregistre en permanence tout ce qui se passe. C'est précisément pour cela que les auteurs du MIT mettent en avant des scénarios de collaboration homme-machine, de déplacement plus sûr des robots dans des espaces fermés et de meilleure compréhension d'une pièce sans surveillance visuelle classique.

Applications possibles : de la logistique à la maison intelligente

Les applications commerciales les plus directes se voient dans la logistique et les entrepôts. Si un robot peut évaluer de manière plus fiable le contenu d'un colis ou la forme d'un objet caché à l'intérieur d'un emballage en carton, il devient plus facile de vérifier si une commande a été correctement emballée avant l'expédition. Dans sa publication, le MIT cite comme l'un des exemples la réduction des déchets liés aux retours de marchandises, ce qui est un sujet particulièrement sensible dans le commerce électronique, où des produits livrés par erreur entraînent des coûts, un transport supplémentaire et une accumulation inutile d'emballages. Dans un entrepôt, cela ouvre aussi la possibilité qu'un robot obtienne une estimation plus réaliste de la forme d'un objet caché derrière d'autres cartons ou sous du matériau d'emballage avant même la manipulation proprement dite.

Un autre groupe d'applications concerne les robots domestiques et de service. Un système capable, sans caméra, d'estimer où se trouve une personne dans une pièce, où elle se déplace et à quoi ressemble la disposition du mobilier pourrait être utile pour la navigation de robots d'assistance, en particulier dans des conditions domestiques dynamiques. Dans un tel environnement, les obstacles ne sont pas statiques : les portes s'ouvrent, les chaises changent de position, des objets restent sur le sol et les personnes se déplacent en permanence. Pour un robot qui doit collaborer avec un humain, il ne suffit pas seulement de "voir" ce qui se trouve exactement devant lui ; il doit aussi comprendre ce qui est partiellement masqué, ainsi que l'agencement plus large de la scène.

Il convient toutefois de souligner que le MIT ne prétend pas qu'il s'agit d'un produit commercial fini prêt pour le marché de masse. Il s'agit de systèmes de recherche présentés lors d'une conférence scientifique, avec des résultats qui montrent une direction de développement, mais qui laissent encore ouvertes des questions sur le coût de l'équipement, la robustesse dans différentes conditions réelles, la vitesse de fonctionnement et l'éventuelle intégration avec d'autres types de capteurs. Le groupe de recherche lui-même indique vouloir accroître la granularité et le niveau de détail des reconstructions et, à l'avenir, construire des modèles fondamentaux plus vastes pour les signaux sans fil, analogues à ce que GPT, Claude ou Gemini sont devenus pour le langage et la vision.

Qui est derrière ce travail et pourquoi le CVPR est important

L'auteur principal des deux travaux est Fadel Adib, professeur associé au MIT Media Lab et à l'EECS ainsi que responsable du groupe Signal Kinetics. Selon le MIT, Laura Dodds a participé au travail sur Wave-Former en tant qu'autrice principale, avec Maisy Lam, Waleed Akbar et Yibo Cheng, tandis que les auteurs du travail sur RISE sont Kaichen Zhou, Laura Dodds, Sayed Saad Afzal et Fadel Adib. Sur la page officielle d'Adib et dans la liste de ses publications, les deux travaux sont indiqués comme des travaux à paraître pour le CVPR 2026. La conférence CVPR elle-même est considérée comme l'un des plus importants rendez-vous mondiaux dans le domaine de la vision par ordinateur et de la reconnaissance des formes, et le site officiel indique que l'édition de cette année se tiendra au Colorado Convention Center à Denver du 3 au 7 juin 2026.

Cela est également pertinent parce que les travaux du MIT ne viennent pas d'un environnement de laboratoire isolé, mais entrent dans une arène scientifique internationale où ils sont comparés aux tendances les plus récentes en vision par ordinateur, modèles multimodaux, robotique et systèmes de compréhension de scène. Au cours des dernières années, l'intelligence artificielle générative a fortement influencé le traitement d'image, la reconstruction 3D et la modélisation de l'espace, mais la contribution du MIT réside dans le fait qu'elle applique cette vague à des données qui ne sont pas des photographies classiques, mais des réflexions sans fil chargées de contraintes physiques spécifiques. Ainsi, la recherche ne se positionne pas seulement comme une simple démonstration d'IA de plus, mais comme une tentative de relier des modèles apprenants aux lois réelles de la propagation du signal.

Ce qui change réellement pour les robots du futur

Le plus grand changement n'est pas que les robots vont soudainement "voir à travers les murs" comme la culture populaire l'imagine parfois. Il est bien plus important qu'ils puissent prendre moins de mauvaises décisions dans des situations où ils travaillent aujourd'hui avec des informations incomplètes. Dans un entrepôt, cela peut signifier moins de prises ratées et moins de dommages aux marchandises. À la maison, cela peut signifier des déplacements plus sûrs près des personnes, des enfants ou des animaux domestiques. Dans un environnement industriel, cela peut signifier une meilleure compréhension de la zone derrière un obstacle sans installer des caméras supplémentaires à chaque point de l'espace.

La publication du MIT suggère que, dans ce cas, l'intelligence artificielle générative ne sert pas seulement à embellir l'image, mais à corriger la limitation fondamentale de la perception sans fil : le capteur ne voit que des fragments, et le modèle aide à déduire ce qui manque. Si cette approche parvient à être davantage mise à l'échelle et validée dans différents environnements, elle pourrait ouvrir une nouvelle classe de systèmes combinant une perception moins intrusive pour la vie privée avec une utilisation pratique en robotique, en logistique et dans les espaces intelligents. Pour l'instant, il s'agit d'une recherche qui doit encore parcourir le chemin du laboratoire à l'application à grande échelle, mais les résultats publiés montrent que la frontière entre ce qui est caché et ce qu'une machine est capable de comprendre se déplace lentement, mais visiblement.

Sources :
- MIT News – publication sur les nouveaux systèmes Wave-Former et RISE, les auteurs, les applications et la date de présentation au CVPR (lien)
- CVPR 2026 – site officiel de la conférence avec les dates et le lieu de l'événement (lien)
- MIT / Fadel Adib – site officiel du chercheur et du groupe Signal Kinetics avec un aperçu des travaux sur la perception sans fil et la liste des travaux à paraître (lien)
- arXiv – résumé de l'article "Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion" avec la méthode et les résultats (lien)
- arXiv – résumé de l'article "RISE: Single Static Radar-based Indoor Scene Understanding" avec la description du benchmark et les mesures de performance (lien)

Trouvez un hébergement à proximité

Heure de création: 3 heures avant

Rédaction science et technologie

Notre Rédaction Science et Technologie est née d’une passion de longue date pour l’exploration, l’interprétation et la vulgarisation de sujets complexes auprès du grand public. Elle réunit des salariés et des bénévoles qui suivent depuis des décennies l’évolution de la science et de l’innovation technologique, des découvertes en laboratoire aux solutions qui transforment la vie quotidienne. Bien que nous écrivions au pluriel, chaque texte est rédigé par une personne réelle dotée d’une vaste expérience éditoriale et journalistique, ainsi que d’un profond respect pour les faits et les informations vérifiables.

Notre rédaction fonde son travail sur la conviction que la science est plus forte lorsqu’elle est accessible à tous. C’est pourquoi nous recherchons la clarté, la précision et la lisibilité, sans simplifications qui nuiraient à la qualité du contenu. Nous passons souvent des heures à étudier des recherches, des documents techniques et des sources spécialisées afin de présenter chaque sujet de manière à susciter l’intérêt du lecteur plutôt qu’à le surcharger. Dans chaque article, nous nous efforçons de relier les connaissances scientifiques à la vie réelle, en montrant comment les idées issues des centres de recherche, des universités et des laboratoires technologiques façonnent le monde qui nous entoure.

Notre longue expérience journalistique nous permet d’identifier ce qui est réellement important pour le lecteur, qu’il s’agisse de progrès dans l’intelligence artificielle, de découvertes médicales, de solutions énergétiques, de missions spatiales ou d’appareils qui entrent dans notre quotidien avant même que nous en imaginions les possibilités. Notre regard sur la technologie n’est pas uniquement technique ; nous nous intéressons aussi aux histoires humaines derrière les grandes avancées – chercheurs qui passent des années sur leurs projets, ingénieurs qui transforment des idées en systèmes fonctionnels, visionnaires qui repoussent les frontières du possible.

Un fort sentiment de responsabilité guide également notre travail. Nous voulons que le lecteur puisse avoir confiance dans les informations que nous fournissons, c’est pourquoi nous vérifions les sources, comparons les données et retardons la publication si un élément reste incertain. La confiance se construit plus lentement qu’une actualité ne s’écrit, mais nous croyons que seul un journalisme de cette rigueur a une valeur durable.

Pour nous, la technologie est plus qu’un ensemble d’appareils, et la science plus qu’une théorie. Ce sont des domaines qui stimulent le progrès, façonnent la société et offrent de nouvelles possibilités à tous ceux qui souhaitent comprendre comment le monde fonctionne aujourd’hui et où il se dirige demain. C’est pourquoi nous abordons chaque sujet avec sérieux mais aussi curiosité, car la curiosité est la porte d’entrée des meilleurs textes.

Notre mission est de rapprocher les lecteurs d’un monde qui change plus vite que jamais, avec la conviction qu’un journalisme de qualité peut servir de pont entre experts, innovateurs et tous ceux qui veulent comprendre ce qui se passe derrière les titres. Nous voyons là notre véritable tâche : transformer le complexe en compréhensible, le lointain en proche et l’inconnu en source d’inspiration.

AVIS À NOS LECTEURS
Karlobag.eu fournit des actualités, des analyses et des informations sur les événements mondiaux et les sujets d'intérêt pour les lecteurs du monde entier. Toutes les informations publiées sont fournies à titre informatif uniquement.
Nous soulignons que nous ne sommes pas des experts dans les domaines scientifique, médical, financier ou juridique. Par conséquent, avant de prendre toute décision basée sur les informations de notre portail, nous vous recommandons de consulter des experts qualifiés.
Karlobag.eu peut contenir des liens vers des sites externes de tiers, y compris des liens affiliés et des contenus sponsorisés. Si vous achetez un produit ou un service via ces liens, nous pouvons percevoir une commission. Nous n'avons aucun contrôle sur le contenu ou les politiques de ces sites et déclinons toute responsabilité quant à leur exactitude, leur disponibilité ou toute transaction effectuée via ces liens.
Si nous publions des informations sur des événements ou des ventes de billets, veuillez noter que nous ne vendons pas de billets, ni directement ni par l'intermédiaire. Notre portail informe uniquement les lecteurs des événements et des possibilités d'achat via des plateformes de vente externes. Nous mettons en relation les lecteurs avec des partenaires offrant des services de vente de billets, sans garantir leur disponibilité, leurs prix ou leurs conditions d'achat. Toutes les informations concernant les billets sont fournies par des tiers et peuvent être modifiées sans préavis. Nous vous recommandons de vérifier attentivement les conditions de vente auprès du partenaire choisi avant tout achat.
Toutes les informations sur notre portail peuvent être modifiées sans préavis. En utilisant ce portail, vous acceptez de lire le contenu à vos risques et périls.