MIT-Roboter sehen mit Hilfe von KI durch Hindernisse

MIT und generative künstliche Intelligenz: wie Roboter mit Hilfe drahtloser Signale verborgene Objekte und Räume sehen

Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

Generative künstliche Intelligenz hilft Robotern, durch Hindernisse zu "sehen": MIT stellte ein System vor, das aus drahtlosen Reflexionen verborgene Objekte und ganze Räume rekonstruiert

Forscher des Massachusetts Institute of Technology haben eine neue Generation drahtloser "Sicht" vorgestellt, die die Art und Weise, wie Roboter Objekte finden, sich in geschlossenen Räumen orientieren und mit Menschen zusammenarbeiten, grundlegend verändern könnte. Im Mittelpunkt ihrer Arbeit steht die Verbindung von Millimeterwellen, einer Art drahtlosen Signals, wie es auch in modernen Kommunikationssystemen verwendet wird, mit generativer künstlicher Intelligenz, die ergänzt, was der Sensor nicht direkt erfassen kann. Das Ergebnis sind zwei Techniken, die aus reflektierten Signalen die Form eines verborgenen Objekts präziser rekonstruieren können, aber auch die Anordnung eines ganzen Raums mit Möbeln, und das ohne klassische Kameras und ohne dass der Sensor auf einem beweglichen Roboter montiert werden muss. MIT gab bekannt, dass beide Arbeiten auf der IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026, vorgestellt werden, die vom 3. bis 7. Juni 2026 in Denver stattfindet.

Obwohl die Idee des "Durch-Hindernisse-Sehens" wie Science-Fiction klingt, handelt es sich um ein Gebiet, an dem das Labor von Professor Fadel Adib seit mehr als einem Jahrzehnt arbeitet. Seine Forschungsgruppe Signal Kinetics am MIT Media Lab und am Department of Electrical Engineering and Computer Science entwickelt Systeme, die drahtlose Signale nutzen, um die Welt in Situationen wahrzunehmen, in denen menschliches Sehen und klassische Kameras eingeschränkt sind. Laut MIT ist diese neue Phase der Arbeit nicht nur eine technische Verbesserung früherer Methoden, sondern eine Art qualitativer Sprung: von teilweisen Rekonstruktionen hin zum Verständnis komplexer Reflexionen und zur Erstellung eines vollständigeren Bildes von Objekten und Räumen, die dem direkten Blick entzogen sind.

Wie das System funktioniert, wenn sich das Objekt außerhalb des Sichtfelds befindet

Bisherige MIT-Systeme stützten sich auf Millimeterwellen beziehungsweise mmWave-Signale, die durch gewöhnliche Hindernisse wie Trockenbauwände, Kunststoff, Karton oder Stoff dringen und von einem verborgenen Objekt reflektiert werden können. Auf Grundlage dieser Reflexionen lässt sich abschätzen, wo sich das Objekt befindet, und seine Form teilweise bestimmen. Das Problem entsteht dadurch, dass sich solche Wellen oft spiegelnd in eine dominante Richtung reflektieren. Deshalb "sieht" der Sensor typischerweise nur einen Teil der Oberfläche, zum Beispiel die Oberseite des Objekts, während die Seiten- und Unterflächen außerhalb der Reichweite der Messung bleiben. Gerade diese unvollständige Geometrie war jahrelang eine der Hauptbeschränkungen der drahtlosen 3D-Wahrnehmung.

MITs neues System Wave-Former versucht genau dieses Problem zu lösen. Anstatt bei einer groben und unvollständigen Rekonstruktion stehen zu bleiben, schlägt das System aus den verfügbaren Reflexionen zunächst mögliche Objektoberflächen vor, überlässt dann einem generativen Modell die Vervollständigung seiner Form und verfeinert anschließend das Ergebnis weiter. Anders gesagt: Der Sensor liefert partielle Informationen, und das Modell lernt, aus diesen Fragmenten die wahrscheinlichste vollständige 3D-Form abzuleiten. Die Forscher betonen dabei, dass das Modell nicht willkürlich arbeitet und keine Geometrie ohne Grundlage "erfindet", sondern so trainiert ist, dass es die physikalischen Eigenschaften von mmWave-Reflexionen und die für solche Messungen charakteristischen Rauschmuster berücksichtigt.

Das ist wichtig, weil bei solchen Systemen die Grenze zwischen einer nützlichen Schätzung und Spekulation sehr leicht überschritten werden kann. Genau deshalb behandelte das MIT-Team generative künstliche Intelligenz nicht als universelles Zauberwerkzeug, sondern band sie an das physikalische Modell der Signalausbreitung. Da es keine riesigen Datensätze mit mmWave-Aufnahmen verborgener Objekte gibt, passten die Forscher bestehende Computer-Vision-Datensätze so an, dass sie die für drahtlose Reflexionen charakteristische Spiegelung und das Rauschen nachahmen. So schufen sie, statt jahrelang eine neue Datenbasis zu sammeln, einen synthetischen Datensatz, auf dem das Modell lernen konnte, wie der "fehlende" Teil der Form aussieht, wenn die Eingangsinformation unvollständig und degradiert ist.

Laut der auf arXiv verfügbaren Zusammenfassung der Arbeit erhöhte Wave-Former im direkten Vergleich mit den besten bestehenden Ansätzen den Rückruf, also den Recall, von 54 auf 72 Prozent bei Beibehaltung einer hohen Präzision von 85 Prozent. MIT News beschreibt diesen Fortschritt auch auf praktischer Ebene: Das System rekonstruierte etwa 70 Alltagsgegenstände originalgetreu, darunter Dosen, Schachteln, Besteck und Obst, während sie hinter Karton, Holz, Trockenbau, Kunststoff und Stoff verborgen waren. Im Kontext der Robotik bedeutet das, dass eine Maschine nicht mehr raten müsste, was sich genau hinter einem Hindernis oder in einer Schachtel befindet, sondern eine überzeugendere räumliche Schätzung des Objekts erhalten würde, bevor sie versucht, es zu greifen, zu sortieren oder den Inhalt zu prüfen.

Vom verborgenen Objekt zur Karte des gesamten Raums

Das zweite System mit dem Namen RISE geht einen Schritt weiter und befasst sich nicht nur mit einem einzelnen Objekt, sondern versucht, einen ganzen Innenraum zu rekonstruieren. Auch in diesem Fall bilden mmWave-Signale die Grundlage, doch diesmal nutzen die Forscher die Tatsache, dass sich Menschen durch den Raum bewegen. Wenn sich eine Person bewegt, wird ein Teil des Signals von ihr reflektiert, dann erneut von Wänden oder Möbeln und kehrt erst danach zum Sensor zurück. Solche sekundären Reflexionen wurden traditionell als Störung oder als "Geister" im Signal betrachtet, weil sie falsche oder verschobene Kopien der ursprünglichen Reflexion erzeugen. Der MIT-Ansatz geht von der entgegengesetzten Annahme aus: Diese "Geister" tragen tatsächlich Informationen über die räumliche Anordnung.

Mit anderen Worten: Was zuvor als Rauschen verworfen wurde, wird zur Datenquelle. RISE beobachtet, wie sich sekundäre Reflexionen verändern, während sich eine Person durch den Raum bewegt, und erstellt aus diesen Veränderungen ein grobes räumliches Bild. Anschließend ergänzt ein generatives Modell die Lücken und verbessert die Auflösung der anfänglichen Rekonstruktion. Laut der arXiv-Zusammenfassung handelt es sich um das erste System und den ersten Benchmark zum Verständnis von Innenräumen mithilfe eines einzigen statischen Radars, wobei das System gleichzeitig auf die Rekonstruktion der räumlichen Anordnung und auf die Objekterkennung abzielt. Die Forscher geben an, dass ihr Datensatz 50.000 Bilder umfasst, die anhand von mehr als 100 realen Bewegungstrajektorien in Innenräumen gesammelt wurden.

In den veröffentlichten Ergebnissen reduzierte RISE die Chamfer-Distanz, ein Maß für den Fehler bei der Rekonstruktion der Geometrie, im Vergleich zu bisherigen Methoden um 60 Prozent auf 16 Zentimeter. Darüber hinaus berichtet die Arbeit über 58 Prozent IoU für die Objekterkennung, was die Autoren als erstes Ergebnis dieser Art beim mmWave-basierten Raumverständnis mit einem einzigen statischen Radar beschreiben. MIT News fasst diesen Fortschritt einfacher zusammen: Rekonstruierte Szenen waren etwa doppelt so präzise wie bestehende Techniken. Das ist nicht das Detailniveau, das Kameras oder LiDAR liefern, aber es ist ein sehr wichtiger Fortschritt für Situationen, in denen optische Sensoren aufgrund von Abschattung, schlechter Sicht oder Datenschutzfragen eingeschränkt sind.

Warum MIT über Privatsphäre spricht und nicht nur über Robotik

In beiden Arbeiten wird auch eine gesellschaftlich sensible Dimension stark betont: die Privatsphäre. Klassische Systeme zum Verständnis von Innenräumen stützen sich häufig auf Kameras, Tiefensensoren oder LiDAR, die ein sehr detailliertes Bild einer Person, ihres Aussehens, ihres Gesichts und ihres Verhaltens liefern können. Der von MIT entwickelte drahtlose Ansatz arbeitet nicht mit der visuellen Identität einer Person, sondern mit reflektierten Signalen, aus denen auf die Geometrie des Raums und die Position des Körpers im Verhältnis zur Umgebung geschlossen wird. Das bedeutet nicht, dass jede Datenschutzfrage automatisch gelöst ist, aber es bedeutet, dass das grundlegende Design des Systems weniger invasiv ist als eine ständige Videoaufzeichnung von Innenräumen.

In der Praxis könnte ein solcher Unterschied in Einrichtungen für ältere Menschen, in Smart Homes, Krankenhäusern, Lagerhäusern und Industrieanlagen wichtig sein. Ein Roboter, der wissen muss, ob sich eine Person hinter einer Ecke befindet, ob ein Durchgang frei ist oder wo ein Gegenstand abgelegt wurde, muss nicht unbedingt eine Kamera haben, die ständig alles aufzeichnet, was geschieht. Gerade deshalb stellen die MIT-Autoren Szenarien der Zusammenarbeit zwischen Mensch und Maschine, der sichereren Bewegung von Robotern in geschlossenen Räumen und des besseren Raumverständnisses ohne klassische visuelle Überwachung in den Vordergrund.

Mögliche Anwendungen: von der Logistik bis zum Smart Home

Die direktesten geschäftlichen Anwendungen zeigen sich in der Logistik und in Lagerhäusern. Wenn ein Roboter den Inhalt eines Pakets oder die Form eines innerhalb einer Kartonverpackung verborgenen Gegenstands zuverlässiger einschätzen kann, lässt sich leichter überprüfen, ob eine Bestellung vor dem Versand korrekt verpackt wurde. MIT nennt in seiner Veröffentlichung als eines der Beispiele die Verringerung von Abfall im Zusammenhang mit Warenrücksendungen, was besonders im E-Commerce ein sensibles Thema ist, wo falsch gelieferte Produkte Kosten, zusätzlichen Transport und unnötige Anhäufung von Verpackungen verursachen. Im Lager eröffnet dies auch die Möglichkeit, dass ein Roboter vor dem eigentlichen Zugriff eine realistischere Schätzung der Form eines Gegenstands erhält, der hinter anderen Kisten oder unter Verpackungsmaterial verborgen ist.

Eine weitere Gruppe von Anwendungen bezieht sich auf Haushalts- und Serviceroboter. Ein System, das ohne Kamera abschätzen kann, wo sich eine Person im Raum befindet, wohin sie sich bewegt und wie die Möbel angeordnet sind, könnte für die Navigation von Assistenzrobotern nützlich sein, insbesondere unter dynamischen häuslichen Bedingungen. In einer solchen Umgebung sind Hindernisse nicht statisch: Türen öffnen sich, Stühle ändern ihre Position, Gegenstände bleiben auf dem Boden liegen, und Menschen sind ständig in Bewegung. Für einen Roboter, der mit einem Menschen zusammenarbeiten soll, reicht es nicht aus, nur das zu "sehen", was sich direkt vor ihm befindet; er muss auch verstehen, was teilweise verdeckt ist, ebenso wie die breitere Anordnung der Szene.

Es sollte jedoch betont werden, dass MIT nicht behauptet, es handle sich um ein fertiges kommerzielles Produkt, das für den Massenmarkt bereit ist. Es handelt sich um Forschungssysteme, die auf einer wissenschaftlichen Konferenz vorgestellt wurden, mit Ergebnissen, die die Entwicklungsrichtung zeigen, aber weiterhin offene Fragen zu den Gerätekosten, zur Robustheit unter verschiedenen realen Bedingungen, zur Arbeitsgeschwindigkeit und zur möglichen Integration mit anderen Arten von Sensoren offenlassen. Die Forschungsgruppe selbst erklärt, dass sie die Granularität und den Detailgrad der Rekonstruktionen erhöhen und künftig größere Basismodelle für drahtlose Signale aufbauen möchte, analog zu dem, was GPT, Claude oder Gemini für Sprache und Vision geworden sind.

Wer hinter der Arbeit steht und warum CVPR wichtig ist

Senior-Autor beider Arbeiten ist Fadel Adib, außerordentlicher Professor am MIT Media Lab und in EECS sowie Leiter der Gruppe Signal Kinetics. Laut MIT war an der Arbeit zu Wave-Former Laura Dodds als Hauptautorin beteiligt, zusammen mit Maisy Lam, Waleed Akbar und Yibo Cheng, während die Arbeit zu RISE von Kaichen Zhou, Laura Dodds, Sayed Saad Afzal und Fadel Adib verfasst wurde. Auf Adibs offizieller Seite und in der Publikationsliste werden beide Arbeiten als kommende Arbeiten für CVPR 2026 aufgeführt. Die CVPR-Konferenz selbst zählt zu den wichtigsten weltweiten Treffen im Bereich Computer Vision und Mustererkennung, und die offizielle Website gibt an, dass die diesjährige Ausgabe vom 3. bis 7. Juni 2026 im Colorado Convention Center in Denver stattfinden wird.

Das ist auch deshalb relevant, weil MITs Arbeiten nicht aus einem isolierten Laborumfeld kommen, sondern in eine internationale wissenschaftliche Arena eintreten, in der sie mit den neuesten Trends in Computer Vision, multimodalen Modellen, Robotik und Systemen zum Szenenverständnis verglichen werden. In den vergangenen Jahren hat generative künstliche Intelligenz die Bildverarbeitung, die 3D-Rekonstruktion und die Modellierung von Räumen stark beeinflusst, doch der Beitrag des MIT besteht darin, diese Welle auf Daten anzuwenden, die keine klassischen Fotografien sind, sondern drahtlose Reflexionen, die mit spezifischen physikalischen Einschränkungen belastet sind. Damit positioniert sich die Forschung nicht nur als ein weiterer KI-Demonstrator, sondern als Versuch, lernende Modelle mit den realen Gesetzmäßigkeiten der Signalausbreitung zu verbinden.

Was sich für zukünftige Roboter tatsächlich ändert

Die größte Veränderung besteht nicht darin, dass Roboter plötzlich "durch Wände sehen" werden, wie es die Popkultur manchmal darstellt. Viel wichtiger ist, dass sie in Situationen, in denen sie heute mit unvollständigen Informationen arbeiten, weniger falsche Entscheidungen treffen könnten. Im Lager kann das weniger verfehlte Zugriffe und weniger Schäden an Waren bedeuten. Im Zuhause kann das sicherere Bewegungen in der Nähe von Menschen, Kindern oder Haustieren bedeuten. In einer industriellen Umgebung kann das ein besseres Verständnis der Zone hinter einem Hindernis bedeuten, ohne zusätzliche Kameras an jedem Punkt des Raums anzubringen.

MITs Veröffentlichung legt nahe, dass generative künstliche Intelligenz in diesem Fall nicht nur der Verschönerung des Bildes dient, sondern der Korrektur der grundlegenden Einschränkung der drahtlosen Wahrnehmung: Der Sensor sieht nur Fragmente, und das Modell hilft dabei, darauf zu schließen, was fehlt. Gelingt es, diesen Ansatz weiter zu skalieren und in unterschiedlichen Umgebungen zu bestätigen, könnte er eine neue Klasse von Systemen eröffnen, die eine weniger in die Privatsphäre eingreifende Wahrnehmung mit praktischer Anwendung in Robotik, Logistik und intelligenten Räumen verbinden. Vorerst handelt es sich um Forschung, die den Weg vom Labor zur breiten Anwendung erst noch zurücklegen muss, doch die veröffentlichten Ergebnisse zeigen, dass sich die Grenze zwischen dem, was verborgen ist, und dem, was eine Maschine zu verstehen vermag, langsam, aber sichtbar verschiebt.

Quellen:
- MIT News – Veröffentlichung über die neuen Systeme Wave-Former und RISE, die Autoren, Anwendungen und das Datum der Präsentation auf der CVPR (Link)
- CVPR 2026 – offizielle Website der Konferenz mit Terminen und Veranstaltungsort (Link)
- MIT / Fadel Adib – offizielle Website des Forschers und der Gruppe Signal Kinetics mit einem Überblick über die Arbeit zur drahtlosen Wahrnehmung und einer Liste kommender Arbeiten (Link)
- arXiv – Zusammenfassung der Arbeit "Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion" mit Methode und Ergebnissen (Link)
- arXiv – Zusammenfassung der Arbeit "RISE: Single Static Radar-based Indoor Scene Understanding" mit Beschreibung des Benchmarks und der Leistungsmaße (Link)

Unterkünfte in der Nähe finden

Erstellungszeitpunkt: 20 März, 2026

MIT und generative künstliche Intelligenz: wie Roboter mit Hilfe drahtloser Signale verborgene Objekte und Räume sehen

Generative künstliche Intelligenz hilft Robotern, durch Hindernisse zu "sehen": MIT stellte ein System vor, das aus drahtlosen Reflexionen verborgene Objekte und ganze Räume rekonstruiert

Wie das System funktioniert, wenn sich das Objekt außerhalb des Sichtfelds befindet

Vom verborgenen Objekt zur Karte des gesamten Raums

Warum MIT über Privatsphäre spricht und nicht nur über Robotik

Mögliche Anwendungen: von der Logistik bis zum Smart Home

Wer hinter der Arbeit steht und warum CVPR wichtig ist

Was sich für zukünftige Roboter tatsächlich ändert

Unterkünfte in der Nähe finden

Redaktion für Wissenschaft und Technologie

Veranstaltungen Kroatien

Vukovar eröffnete das 8. Festival „ALLE zuSAMMEN KROATIENS BESTES” mit Kulturerbe, Konzerten und einem Erinnerungsprogramm

Das Konzert „Senza basso” in Rijeka bringt einen seltenen barocken Dialog von Violine und Traversflöte beim Festival in den Zuckerpalast

Das Internationale Festival der Kleinen Szenen in Rijeka und Opatija bringt sechs Aufführungen aus vier Ländern

Grafik des Aufbegehrens im MMSU in Rijeka bringt einen Workshop zu aktivistischem Druck und eine Pop-up-Ausstellung nach Benčić

Die Musikschule Ivana Matetića Ronjgova öffnet ihre Türen mit Konzerten, Instrumenten und Einschreibungsinformationen

Shakespeares König Lear im Rijekaer HNK bringt eine Geschichte über Macht, Verrat und den Zerfall des Vertrauens

Rijeka begeht 25 Jahre des Lektorats für polnische Sprache durch Ausstellungen, Konzerte, Workshops und Theater

Das verlängerte Wochenende in Karlovac bringt Radtour, Jazz, Führungen, Ausstellungen und eine Flussschifffahrt mit Zora

MIT und generative künstliche Intelligenz: wie Roboter mit Hilfe drahtloser Signale verborgene Objekte und Räume sehen

Generative künstliche Intelligenz hilft Robotern, durch Hindernisse zu "sehen": MIT stellte ein System vor, das aus drahtlosen Reflexionen verborgene Objekte und ganze Räume rekonstruiert

Wie das System funktioniert, wenn sich das Objekt außerhalb des Sichtfelds befindet

Vom verborgenen Objekt zur Karte des gesamten Raums

Warum MIT über Privatsphäre spricht und nicht nur über Robotik

Mögliche Anwendungen: von der Logistik bis zum Smart Home

Wer hinter der Arbeit steht und warum CVPR wichtig ist

Was sich für zukünftige Roboter tatsächlich ändert

Unterkünfte in der Nähe finden

Verwandt