Postavke privatnosti

MIT und generative künstliche Intelligenz: wie Roboter mit Hilfe drahtloser Signale verborgene Objekte und Räume sehen

Erfahre, wie MIT-Forscher generative künstliche Intelligenz und drahtlose mmWave-Signale kombiniert haben, damit Roboter verborgene Objekte präziser erkennen und Räume ohne Kameras rekonstruieren können. Wir geben einen Überblick über die Technologie, mögliche Anwendungen und die Gründe, warum sie die Robotik verändern könnte.

MIT und generative künstliche Intelligenz: wie Roboter mit Hilfe drahtloser Signale verborgene Objekte und Räume sehen
Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

Generative künstliche Intelligenz hilft Robotern, durch Hindernisse zu "sehen": MIT stellte ein System vor, das aus drahtlosen Reflexionen verborgene Objekte und ganze Räume rekonstruiert

Forscher des Massachusetts Institute of Technology haben eine neue Generation drahtloser "Sicht" vorgestellt, die die Art und Weise, wie Roboter Objekte finden, sich in geschlossenen Räumen orientieren und mit Menschen zusammenarbeiten, grundlegend verändern könnte. Im Mittelpunkt ihrer Arbeit steht die Verbindung von Millimeterwellen, einer Art drahtlosen Signals, wie es auch in modernen Kommunikationssystemen verwendet wird, mit generativer künstlicher Intelligenz, die ergänzt, was der Sensor nicht direkt erfassen kann. Das Ergebnis sind zwei Techniken, die aus reflektierten Signalen die Form eines verborgenen Objekts präziser rekonstruieren können, aber auch die Anordnung eines ganzen Raums mit Möbeln, und das ohne klassische Kameras und ohne dass der Sensor auf einem beweglichen Roboter montiert werden muss. MIT gab bekannt, dass beide Arbeiten auf der IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026, vorgestellt werden, die vom 3. bis 7. Juni 2026 in Denver stattfindet.

Obwohl die Idee des "Durch-Hindernisse-Sehens" wie Science-Fiction klingt, handelt es sich um ein Gebiet, an dem das Labor von Professor Fadel Adib seit mehr als einem Jahrzehnt arbeitet. Seine Forschungsgruppe Signal Kinetics am MIT Media Lab und am Department of Electrical Engineering and Computer Science entwickelt Systeme, die drahtlose Signale nutzen, um die Welt in Situationen wahrzunehmen, in denen menschliches Sehen und klassische Kameras eingeschränkt sind. Laut MIT ist diese neue Phase der Arbeit nicht nur eine technische Verbesserung früherer Methoden, sondern eine Art qualitativer Sprung: von teilweisen Rekonstruktionen hin zum Verständnis komplexer Reflexionen und zur Erstellung eines vollständigeren Bildes von Objekten und Räumen, die dem direkten Blick entzogen sind.

Wie das System funktioniert, wenn sich das Objekt außerhalb des Sichtfelds befindet

Bisherige MIT-Systeme stützten sich auf Millimeterwellen beziehungsweise mmWave-Signale, die durch gewöhnliche Hindernisse wie Trockenbauwände, Kunststoff, Karton oder Stoff dringen und von einem verborgenen Objekt reflektiert werden können. Auf Grundlage dieser Reflexionen lässt sich abschätzen, wo sich das Objekt befindet, und seine Form teilweise bestimmen. Das Problem entsteht dadurch, dass sich solche Wellen oft spiegelnd in eine dominante Richtung reflektieren. Deshalb "sieht" der Sensor typischerweise nur einen Teil der Oberfläche, zum Beispiel die Oberseite des Objekts, während die Seiten- und Unterflächen außerhalb der Reichweite der Messung bleiben. Gerade diese unvollständige Geometrie war jahrelang eine der Hauptbeschränkungen der drahtlosen 3D-Wahrnehmung.

MITs neues System Wave-Former versucht genau dieses Problem zu lösen. Anstatt bei einer groben und unvollständigen Rekonstruktion stehen zu bleiben, schlägt das System aus den verfügbaren Reflexionen zunächst mögliche Objektoberflächen vor, überlässt dann einem generativen Modell die Vervollständigung seiner Form und verfeinert anschließend das Ergebnis weiter. Anders gesagt: Der Sensor liefert partielle Informationen, und das Modell lernt, aus diesen Fragmenten die wahrscheinlichste vollständige 3D-Form abzuleiten. Die Forscher betonen dabei, dass das Modell nicht willkürlich arbeitet und keine Geometrie ohne Grundlage "erfindet", sondern so trainiert ist, dass es die physikalischen Eigenschaften von mmWave-Reflexionen und die für solche Messungen charakteristischen Rauschmuster berücksichtigt.

Das ist wichtig, weil bei solchen Systemen die Grenze zwischen einer nützlichen Schätzung und Spekulation sehr leicht überschritten werden kann. Genau deshalb behandelte das MIT-Team generative künstliche Intelligenz nicht als universelles Zauberwerkzeug, sondern band sie an das physikalische Modell der Signalausbreitung. Da es keine riesigen Datensätze mit mmWave-Aufnahmen verborgener Objekte gibt, passten die Forscher bestehende Computer-Vision-Datensätze so an, dass sie die für drahtlose Reflexionen charakteristische Spiegelung und das Rauschen nachahmen. So schufen sie, statt jahrelang eine neue Datenbasis zu sammeln, einen synthetischen Datensatz, auf dem das Modell lernen konnte, wie der "fehlende" Teil der Form aussieht, wenn die Eingangsinformation unvollständig und degradiert ist.

Laut der auf arXiv verfügbaren Zusammenfassung der Arbeit erhöhte Wave-Former im direkten Vergleich mit den besten bestehenden Ansätzen den Rückruf, also den Recall, von 54 auf 72 Prozent bei Beibehaltung einer hohen Präzision von 85 Prozent. MIT News beschreibt diesen Fortschritt auch auf praktischer Ebene: Das System rekonstruierte etwa 70 Alltagsgegenstände originalgetreu, darunter Dosen, Schachteln, Besteck und Obst, während sie hinter Karton, Holz, Trockenbau, Kunststoff und Stoff verborgen waren. Im Kontext der Robotik bedeutet das, dass eine Maschine nicht mehr raten müsste, was sich genau hinter einem Hindernis oder in einer Schachtel befindet, sondern eine überzeugendere räumliche Schätzung des Objekts erhalten würde, bevor sie versucht, es zu greifen, zu sortieren oder den Inhalt zu prüfen.

Vom verborgenen Objekt zur Karte des gesamten Raums

Das zweite System mit dem Namen RISE geht einen Schritt weiter und befasst sich nicht nur mit einem einzelnen Objekt, sondern versucht, einen ganzen Innenraum zu rekonstruieren. Auch in diesem Fall bilden mmWave-Signale die Grundlage, doch diesmal nutzen die Forscher die Tatsache, dass sich Menschen durch den Raum bewegen. Wenn sich eine Person bewegt, wird ein Teil des Signals von ihr reflektiert, dann erneut von Wänden oder Möbeln und kehrt erst danach zum Sensor zurück. Solche sekundären Reflexionen wurden traditionell als Störung oder als "Geister" im Signal betrachtet, weil sie falsche oder verschobene Kopien der ursprünglichen Reflexion erzeugen. Der MIT-Ansatz geht von der entgegengesetzten Annahme aus: Diese "Geister" tragen tatsächlich Informationen über die räumliche Anordnung.

Mit anderen Worten: Was zuvor als Rauschen verworfen wurde, wird zur Datenquelle. RISE beobachtet, wie sich sekundäre Reflexionen verändern, während sich eine Person durch den Raum bewegt, und erstellt aus diesen Veränderungen ein grobes räumliches Bild. Anschließend ergänzt ein generatives Modell die Lücken und verbessert die Auflösung der anfänglichen Rekonstruktion. Laut der arXiv-Zusammenfassung handelt es sich um das erste System und den ersten Benchmark zum Verständnis von Innenräumen mithilfe eines einzigen statischen Radars, wobei das System gleichzeitig auf die Rekonstruktion der räumlichen Anordnung und auf die Objekterkennung abzielt. Die Forscher geben an, dass ihr Datensatz 50.000 Bilder umfasst, die anhand von mehr als 100 realen Bewegungstrajektorien in Innenräumen gesammelt wurden.

In den veröffentlichten Ergebnissen reduzierte RISE die Chamfer-Distanz, ein Maß für den Fehler bei der Rekonstruktion der Geometrie, im Vergleich zu bisherigen Methoden um 60 Prozent auf 16 Zentimeter. Darüber hinaus berichtet die Arbeit über 58 Prozent IoU für die Objekterkennung, was die Autoren als erstes Ergebnis dieser Art beim mmWave-basierten Raumverständnis mit einem einzigen statischen Radar beschreiben. MIT News fasst diesen Fortschritt einfacher zusammen: Rekonstruierte Szenen waren etwa doppelt so präzise wie bestehende Techniken. Das ist nicht das Detailniveau, das Kameras oder LiDAR liefern, aber es ist ein sehr wichtiger Fortschritt für Situationen, in denen optische Sensoren aufgrund von Abschattung, schlechter Sicht oder Datenschutzfragen eingeschränkt sind.

Warum MIT über Privatsphäre spricht und nicht nur über Robotik

In beiden Arbeiten wird auch eine gesellschaftlich sensible Dimension stark betont: die Privatsphäre. Klassische Systeme zum Verständnis von Innenräumen stützen sich häufig auf Kameras, Tiefensensoren oder LiDAR, die ein sehr detailliertes Bild einer Person, ihres Aussehens, ihres Gesichts und ihres Verhaltens liefern können. Der von MIT entwickelte drahtlose Ansatz arbeitet nicht mit der visuellen Identität einer Person, sondern mit reflektierten Signalen, aus denen auf die Geometrie des Raums und die Position des Körpers im Verhältnis zur Umgebung geschlossen wird. Das bedeutet nicht, dass jede Datenschutzfrage automatisch gelöst ist, aber es bedeutet, dass das grundlegende Design des Systems weniger invasiv ist als eine ständige Videoaufzeichnung von Innenräumen.

In der Praxis könnte ein solcher Unterschied in Einrichtungen für ältere Menschen, in Smart Homes, Krankenhäusern, Lagerhäusern und Industrieanlagen wichtig sein. Ein Roboter, der wissen muss, ob sich eine Person hinter einer Ecke befindet, ob ein Durchgang frei ist oder wo ein Gegenstand abgelegt wurde, muss nicht unbedingt eine Kamera haben, die ständig alles aufzeichnet, was geschieht. Gerade deshalb stellen die MIT-Autoren Szenarien der Zusammenarbeit zwischen Mensch und Maschine, der sichereren Bewegung von Robotern in geschlossenen Räumen und des besseren Raumverständnisses ohne klassische visuelle Überwachung in den Vordergrund.

Mögliche Anwendungen: von der Logistik bis zum Smart Home

Die direktesten geschäftlichen Anwendungen zeigen sich in der Logistik und in Lagerhäusern. Wenn ein Roboter den Inhalt eines Pakets oder die Form eines innerhalb einer Kartonverpackung verborgenen Gegenstands zuverlässiger einschätzen kann, lässt sich leichter überprüfen, ob eine Bestellung vor dem Versand korrekt verpackt wurde. MIT nennt in seiner Veröffentlichung als eines der Beispiele die Verringerung von Abfall im Zusammenhang mit Warenrücksendungen, was besonders im E-Commerce ein sensibles Thema ist, wo falsch gelieferte Produkte Kosten, zusätzlichen Transport und unnötige Anhäufung von Verpackungen verursachen. Im Lager eröffnet dies auch die Möglichkeit, dass ein Roboter vor dem eigentlichen Zugriff eine realistischere Schätzung der Form eines Gegenstands erhält, der hinter anderen Kisten oder unter Verpackungsmaterial verborgen ist.

Eine weitere Gruppe von Anwendungen bezieht sich auf Haushalts- und Serviceroboter. Ein System, das ohne Kamera abschätzen kann, wo sich eine Person im Raum befindet, wohin sie sich bewegt und wie die Möbel angeordnet sind, könnte für die Navigation von Assistenzrobotern nützlich sein, insbesondere unter dynamischen häuslichen Bedingungen. In einer solchen Umgebung sind Hindernisse nicht statisch: Türen öffnen sich, Stühle ändern ihre Position, Gegenstände bleiben auf dem Boden liegen, und Menschen sind ständig in Bewegung. Für einen Roboter, der mit einem Menschen zusammenarbeiten soll, reicht es nicht aus, nur das zu "sehen", was sich direkt vor ihm befindet; er muss auch verstehen, was teilweise verdeckt ist, ebenso wie die breitere Anordnung der Szene.

Es sollte jedoch betont werden, dass MIT nicht behauptet, es handle sich um ein fertiges kommerzielles Produkt, das für den Massenmarkt bereit ist. Es handelt sich um Forschungssysteme, die auf einer wissenschaftlichen Konferenz vorgestellt wurden, mit Ergebnissen, die die Entwicklungsrichtung zeigen, aber weiterhin offene Fragen zu den Gerätekosten, zur Robustheit unter verschiedenen realen Bedingungen, zur Arbeitsgeschwindigkeit und zur möglichen Integration mit anderen Arten von Sensoren offenlassen. Die Forschungsgruppe selbst erklärt, dass sie die Granularität und den Detailgrad der Rekonstruktionen erhöhen und künftig größere Basismodelle für drahtlose Signale aufbauen möchte, analog zu dem, was GPT, Claude oder Gemini für Sprache und Vision geworden sind.

Wer hinter der Arbeit steht und warum CVPR wichtig ist

Senior-Autor beider Arbeiten ist Fadel Adib, außerordentlicher Professor am MIT Media Lab und in EECS sowie Leiter der Gruppe Signal Kinetics. Laut MIT war an der Arbeit zu Wave-Former Laura Dodds als Hauptautorin beteiligt, zusammen mit Maisy Lam, Waleed Akbar und Yibo Cheng, während die Arbeit zu RISE von Kaichen Zhou, Laura Dodds, Sayed Saad Afzal und Fadel Adib verfasst wurde. Auf Adibs offizieller Seite und in der Publikationsliste werden beide Arbeiten als kommende Arbeiten für CVPR 2026 aufgeführt. Die CVPR-Konferenz selbst zählt zu den wichtigsten weltweiten Treffen im Bereich Computer Vision und Mustererkennung, und die offizielle Website gibt an, dass die diesjährige Ausgabe vom 3. bis 7. Juni 2026 im Colorado Convention Center in Denver stattfinden wird.

Das ist auch deshalb relevant, weil MITs Arbeiten nicht aus einem isolierten Laborumfeld kommen, sondern in eine internationale wissenschaftliche Arena eintreten, in der sie mit den neuesten Trends in Computer Vision, multimodalen Modellen, Robotik und Systemen zum Szenenverständnis verglichen werden. In den vergangenen Jahren hat generative künstliche Intelligenz die Bildverarbeitung, die 3D-Rekonstruktion und die Modellierung von Räumen stark beeinflusst, doch der Beitrag des MIT besteht darin, diese Welle auf Daten anzuwenden, die keine klassischen Fotografien sind, sondern drahtlose Reflexionen, die mit spezifischen physikalischen Einschränkungen belastet sind. Damit positioniert sich die Forschung nicht nur als ein weiterer KI-Demonstrator, sondern als Versuch, lernende Modelle mit den realen Gesetzmäßigkeiten der Signalausbreitung zu verbinden.

Was sich für zukünftige Roboter tatsächlich ändert

Die größte Veränderung besteht nicht darin, dass Roboter plötzlich "durch Wände sehen" werden, wie es die Popkultur manchmal darstellt. Viel wichtiger ist, dass sie in Situationen, in denen sie heute mit unvollständigen Informationen arbeiten, weniger falsche Entscheidungen treffen könnten. Im Lager kann das weniger verfehlte Zugriffe und weniger Schäden an Waren bedeuten. Im Zuhause kann das sicherere Bewegungen in der Nähe von Menschen, Kindern oder Haustieren bedeuten. In einer industriellen Umgebung kann das ein besseres Verständnis der Zone hinter einem Hindernis bedeuten, ohne zusätzliche Kameras an jedem Punkt des Raums anzubringen.

MITs Veröffentlichung legt nahe, dass generative künstliche Intelligenz in diesem Fall nicht nur der Verschönerung des Bildes dient, sondern der Korrektur der grundlegenden Einschränkung der drahtlosen Wahrnehmung: Der Sensor sieht nur Fragmente, und das Modell hilft dabei, darauf zu schließen, was fehlt. Gelingt es, diesen Ansatz weiter zu skalieren und in unterschiedlichen Umgebungen zu bestätigen, könnte er eine neue Klasse von Systemen eröffnen, die eine weniger in die Privatsphäre eingreifende Wahrnehmung mit praktischer Anwendung in Robotik, Logistik und intelligenten Räumen verbinden. Vorerst handelt es sich um Forschung, die den Weg vom Labor zur breiten Anwendung erst noch zurücklegen muss, doch die veröffentlichten Ergebnisse zeigen, dass sich die Grenze zwischen dem, was verborgen ist, und dem, was eine Maschine zu verstehen vermag, langsam, aber sichtbar verschiebt.

Quellen:
- MIT News – Veröffentlichung über die neuen Systeme Wave-Former und RISE, die Autoren, Anwendungen und das Datum der Präsentation auf der CVPR (Link)
- CVPR 2026 – offizielle Website der Konferenz mit Terminen und Veranstaltungsort (Link)
- MIT / Fadel Adib – offizielle Website des Forschers und der Gruppe Signal Kinetics mit einem Überblick über die Arbeit zur drahtlosen Wahrnehmung und einer Liste kommender Arbeiten (Link)
- arXiv – Zusammenfassung der Arbeit "Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion" mit Methode und Ergebnissen (Link)
- arXiv – Zusammenfassung der Arbeit "RISE: Single Static Radar-based Indoor Scene Understanding" mit Beschreibung des Benchmarks und der Leistungsmaße (Link)

Unterkünfte in der Nähe finden

Erstellungszeitpunkt: 2 Stunden zuvor

Redaktion für Wissenschaft und Technologie

Unsere Redaktion für Wissenschaft und Technologie ist aus einer langjährigen Leidenschaft für das Erforschen, Interpretieren und Vermitteln komplexer Themen an alltägliche Leser entstanden. Bei uns schreiben Mitarbeiter und freiwillige Autoren, die seit Jahrzehnten die Entwicklungen in Wissenschaft und technologischer Innovation verfolgen – von Laborentdeckungen bis zu Lösungen, die den Alltag verändern. Obwohl wir in der Mehrzahl schreiben, steht hinter jedem Text eine echte Person mit umfangreicher redaktioneller und journalistischer Erfahrung sowie großem Respekt gegenüber Fakten und überprüfbaren Informationen.

Unsere Redaktion arbeitet aus der Überzeugung heraus, dass Wissenschaft am stärksten ist, wenn sie für alle zugänglich ist. Deshalb streben wir nach Klarheit, Präzision und Verständlichkeit, ohne jene Vereinfachungen, die die Qualität des Inhalts mindern würden. Oft verbringen wir Stunden mit dem Studium von Forschungsarbeiten, technischen Dokumenten und Fachquellen, um jedes Thema so zu präsentieren, dass es den Leser interessiert und nicht belastet. In jedem Text versuchen wir, wissenschaftliche Erkenntnisse mit dem realen Leben zu verbinden und zu zeigen, wie Ideen aus Forschungszentren, Universitäten und Technologielaboren die Welt um uns herum gestalten.

Unsere langjährige journalistische Erfahrung ermöglicht uns zu erkennen, was für den Leser wirklich wichtig ist – ob es um Fortschritte in der künstlichen Intelligenz geht, medizinische Entdeckungen, Energielösungen, Weltraummissionen oder Geräte, die unseren Alltag erreichen, bevor wir uns überhaupt ihre Möglichkeiten vorstellen können. Unser Blick auf Technologie ist nicht nur technisch; uns interessieren auch die menschlichen Geschichten hinter großen Entwicklungen – Forscher, die jahrelang an Projekten arbeiten, Ingenieure, die Ideen in funktionierende Systeme verwandeln, und Visionäre, die die Grenzen des Möglichen erweitern.

Auch ein starkes Verantwortungsgefühl leitet uns bei der Arbeit. Wir möchten, dass der Leser Vertrauen in die von uns gelieferten Informationen haben kann, daher überprüfen wir Quellen, vergleichen Daten und zögern mit der Veröffentlichung, wenn etwas nicht ganz klar ist. Vertrauen entsteht langsamer, als Nachrichten geschrieben werden, doch wir glauben, dass nur solch ein Journalismus langfristig wertvoll ist.

Für uns ist Technologie mehr als Geräte, und Wissenschaft mehr als Theorie. Es sind Bereiche, die Fortschritt antreiben, die Gesellschaft prägen und neue Möglichkeiten eröffnen für alle, die verstehen wollen, wie die Welt heute funktioniert und wohin sie morgen geht. Deshalb gehen wir jedes Thema mit Ernsthaftigkeit, aber auch mit Neugier an – denn gerade Neugier öffnet die Tür zu den besten Texten.

Unsere Mission ist es, den Lesern eine Welt näherzubringen, die sich schneller denn je verändert, im Bewusstsein, dass qualitativ hochwertiger Journalismus eine Brücke sein kann zwischen Experten, Innovatoren und all jenen, die verstehen wollen, was hinter den Schlagzeilen geschieht. Darin sehen wir unsere wahre Aufgabe: das Komplexe verständlich zu machen, das Entfernte nah und das Unbekannte inspirierend.

HINWEIS FÜR UNSERE LESER
Karlobag.eu bietet Nachrichten, Analysen und Informationen zu globalen Ereignissen und Themen, die für Leser weltweit von Interesse sind. Alle veröffentlichten Informationen dienen ausschließlich zu Informationszwecken.
Wir betonen, dass wir keine Experten in den Bereichen Wissenschaft, Medizin, Finanzen oder Recht sind. Daher empfehlen wir, vor der Entscheidungsfindung auf Basis der Informationen unseres Portals, sich mit qualifizierten Experten zu beraten.
Karlobag.eu kann Links zu externen Drittanbieterseiten enthalten, einschließlich Affiliate-Links und gesponserten Inhalten. Wenn Sie über diese Links ein Produkt oder eine Dienstleistung kaufen, können wir eine Provision erhalten. Wir haben keine Kontrolle über die Inhalte oder Richtlinien dieser Seiten und übernehmen keine Verantwortung für deren Genauigkeit, Verfügbarkeit oder für Transaktionen, die Sie über diese Seiten tätigen.
Wenn wir Informationen über Veranstaltungen oder Ticketverkäufe veröffentlichen, beachten Sie bitte, dass wir weder direkt noch über Vermittler Tickets verkaufen. Unser Portal informiert ausschließlich über Veranstaltungen und Kaufmöglichkeiten über externe Verkaufsplattformen. Wir verbinden Leser mit Partnern, die Ticketverkaufsdienste anbieten, garantieren jedoch nicht deren Verfügbarkeit, Preise oder Kaufbedingungen. Alle Ticketinformationen werden von Dritten bezogen und können ohne vorherige Ankündigung Änderungen unterliegen. Wir empfehlen, die Verkaufsbedingungen beim gewählten Partner vor einem Kauf sorgfältig zu überprüfen, da das Portal Karlobag.eu keine Verantwortung für Transaktionen oder Verkaufsbedingungen von Tickets übernimmt.
Alle Informationen auf unserem Portal können ohne vorherige Ankündigung geändert werden. Durch die Nutzung dieses Portals stimmen Sie zu, dass Sie die Inhalte auf eigenes Risiko lesen.