Generatywna sztuczna inteligencja pomaga robotom "widzieć" przez przeszkody: MIT zaprezentował system, który z bezprzewodowych odbić rekonstruuje ukryte przedmioty i całe pomieszczenia
Badacze z Massachusetts Institute of Technology zaprezentowali nową generację bezprzewodowego "widzenia", która mogłaby znacząco zmienić sposób, w jaki roboty znajdują przedmioty, poruszają się w zamkniętych przestrzeniach i pracują obok ludzi. W centrum ich pracy znajduje się połączenie fal milimetrowych, rodzaju sygnału bezprzewodowego używanego także we współczesnych systemach komunikacyjnych, z generatywną sztuczną inteligencją, która uzupełnia to, czego czujnik nie może bezpośrednio zarejestrować. Rezultatem są dwie techniki, które z odbitych sygnałów mogą dokładniej rekonstruować kształt ukrytego przedmiotu, ale także układ całego pomieszczenia z meblami, i to bez klasycznych kamer oraz bez potrzeby montowania czujnika na poruszającym się robocie. MIT poinformował, że obie prace zostaną zaprezentowane na konferencji IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026, która odbędzie się od 3 do 7 czerwca 2026 roku w Denver.
Choć idea "widzenia przez przeszkody" brzmi jak science fiction, jest to dziedzina, nad którą laboratorium profesora Fadela Adiba pracuje od ponad dekady. Jego grupa badawcza Signal Kinetics w MIT Media Lab i na Wydziale Elektrotechniki i Informatyki rozwija systemy wykorzystujące sygnały bezprzewodowe do postrzegania świata w sytuacjach, w których ludzki wzrok i klasyczne kamery są ograniczone. Według MIT nowa faza tych prac to nie tylko techniczne ulepszenie wcześniejszych metod, lecz swoisty jakościowy skok: od częściowych rekonstrukcji do rozumienia złożonych odbić i tworzenia pełniejszego obrazu obiektów oraz przestrzeni zasłoniętych przed bezpośrednim widokiem.
Jak system działa, gdy przedmiot znajduje się poza zasięgiem wzroku
Dotychczasowe systemy MIT opierały się na falach milimetrowych, czyli sygnałach mmWave, które mogą przenikać przez typowe przeszkody, takie jak płyta gipsowo-kartonowa, plastik, karton lub tkanina, i odbijać się od ukrytego przedmiotu. Na podstawie tych odbić można oszacować, gdzie znajduje się przedmiot, i częściowo określić jego kształt. Problem polega na tym, że takie fale często odbijają się zwierciadlanie, w jednym dominującym kierunku. Z tego powodu czujnik zwykle "widzi" tylko część powierzchni, na przykład górną stronę przedmiotu, podczas gdy powierzchnie boczne i dolne pozostają poza zasięgiem pomiaru. Właśnie ta niepełna geometria przez lata była jednym z głównych ograniczeń bezprzewodowej percepcji 3D.
Nowy system MIT, Wave-Former, próbuje rozwiązać właśnie ten problem. Zamiast zatrzymywać się na zgrubnej i niepełnej rekonstrukcji, system najpierw proponuje możliwe powierzchnie przedmiotu na podstawie dostępnych odbić, następnie przekazuje generatywnemu modelowi dokończenie jego kształtu, a potem dodatkowo dopracowuje wynik. Innymi słowy, czujnik dostarcza częściowych informacji, a model uczy się, jak z tych fragmentów wywnioskować najbardziej prawdopodobny pełny kształt 3D. Badacze podkreślają przy tym, że model nie działa arbitralnie i nie "wymyśla" geometrii bez podstaw, lecz został wytrenowany tak, by brać pod uwagę właściwości fizyczne odbić mmWave oraz wzorce szumu charakterystyczne dla takich pomiarów.
To ważne, ponieważ w takich systemach bardzo łatwo przekroczyć granicę między użytecznym oszacowaniem a spekulacją. Właśnie dlatego zespół MIT nie potraktował generatywnej sztucznej inteligencji jako uniwersalnego magicznego narzędzia, lecz powiązał ją z fizycznym modelem propagacji sygnału. Ponieważ nie istnieją ogromne zbiory danych z nagraniami mmWave ukrytych przedmiotów, badacze dostosowali istniejące zbiory danych komputerowego widzenia tak, aby naśladowały lustrzaność i szum charakterystyczne dla odbić bezprzewodowych. W ten sposób, zamiast wieloletniego gromadzenia nowej bazy, stworzyli syntetyczny zbiór danych, na którym model mógł nauczyć się, jak wygląda "brakująca" część kształtu, gdy informacja wejściowa jest niepełna i zdegradowana.
Według streszczenia pracy dostępnego w arXiv, Wave-Former w bezpośrednim porównaniu z najlepszymi istniejącymi podejściami zwiększył recall z 54 do 72 procent przy zachowaniu wysokiej precyzji na poziomie 85 procent. MIT News opisuje tę zmianę także na poziomie praktycznym: system wiernie zrekonstruował około 70 codziennych przedmiotów, w tym puszki, pudełka, sztućce i owoce, gdy były ukryte za kartonem, drewnem, płytą gipsowo-kartonową, plastikiem i tkaniną. W kontekście robotyki oznacza to, że maszyna nie musiałaby już zgadywać, co dokładnie znajduje się za przeszkodą lub w pudełku, lecz otrzymałaby bardziej przekonującą przestrzenną ocenę przedmiotu, zanim spróbuje go chwycić, posortować lub sprawdzić zawartość.
Od ukrytego przedmiotu do mapy całego pomieszczenia
Drugi system, nazwany RISE, idzie o krok dalej i nie zajmuje się tylko jednym przedmiotem, lecz próbuje zrekonstruować całe wnętrze. Także w tym przypadku podstawą są sygnały mmWave, ale tym razem badacze wykorzystują fakt, że ludzie poruszają się po pomieszczeniu. Kiedy osoba się porusza, część sygnału odbija się od niej, następnie ponownie od ścian lub mebli, a dopiero potem wraca do czujnika. Takie wtórne odbicia tradycyjnie uznawano za zakłócenia lub "duchy" w sygnale, ponieważ tworzą fałszywe lub przesunięte kopie pierwotnego odbicia. Podejście MIT opiera się na przeciwstawnym założeniu: te "duchy" w rzeczywistości niosą informację o układzie przestrzeni.
Innymi słowy, to, co wcześniej odrzucano jako szum, staje się źródłem danych. RISE obserwuje, jak wtórne odbicia zmieniają się, gdy osoba porusza się po pomieszczeniu, i na podstawie tych zmian buduje zgrubny obraz przestrzenny. Następnie model generatywny uzupełnia luki i poprawia rozdzielczość początkowej rekonstrukcji. Według streszczenia w arXiv jest to pierwszy system i pierwszy benchmark do rozumienia wnętrz przy użyciu jednego statycznego radaru, przy czym system jednocześnie celuje w rekonstrukcję układu przestrzennego oraz w detekcję obiektów. Badacze podają, że ich zbiór danych zawiera 50 000 klatek zebranych w trakcie ponad 100 rzeczywistych trajektorii ruchu we wnętrzach.
W opublikowanych wynikach RISE zmniejszył odległość Chamfera, miarę błędu rekonstrukcji geometrii, o 60 procent, do 16 centymetrów, w porównaniu z dotychczasowymi metodami. Ponadto praca podaje także 58 procent IoU dla detekcji obiektów, co autorzy opisują jako pierwszy wynik tego rodzaju w rozumieniu pomieszczenia mmWave opartym na jednym statycznym radarze. MIT News podsumowuje ten postęp prościej: zrekonstruowane sceny były mniej więcej dwa razy dokładniejsze niż istniejące techniki. Nie jest to poziom szczegółowości oferowany przez kamery lub LiDAR, ale jest to bardzo ważny krok naprzód w sytuacjach, w których czujniki optyczne mają ograniczenia z powodu zasłonięcia, słabej widoczności lub kwestii prywatności.
Dlaczego MIT mówi o prywatności, a nie tylko o robotyce
W obu pracach mocno podkreślany jest także jeden społecznie wrażliwy wymiar: prywatność. Klasyczne systemy rozumienia przestrzeni wewnętrznej często opierają się na kamerach, czujnikach głębi lub LiDAR-ze, które mogą dać bardzo szczegółowy obraz osoby, jej wyglądu, twarzy i zachowania. Bezprzewodowe podejście rozwijane przez MIT nie pracuje z wizualną tożsamością osoby, lecz z odbitymi sygnałami, z których wyciąga się wnioski o geometrii przestrzeni i położeniu ciała względem otoczenia. Nie oznacza to, że każda wątpliwość dotycząca prywatności jest automatycznie rozwiązana, ale oznacza, że podstawowy projekt systemu jest mniej inwazyjny niż stałe nagrywanie wnętrz wideo.
W praktyce taka różnica mogłaby mieć znaczenie w domach opieki dla osób starszych, w inteligentnych domach, szpitalach, magazynach i zakładach przemysłowych. Robot, który musi wiedzieć, czy za rogiem znajduje się człowiek, czy przejście jest wolne albo gdzie został odłożony przedmiot, nie musi koniecznie mieć kamery stale nagrywającej wszystko, co się dzieje. Właśnie dlatego autorzy z MIT na pierwszy plan wysuwają scenariusze współpracy człowieka i maszyny, bezpieczniejszego poruszania się robotów w zamkniętych przestrzeniach oraz lepszego rozumienia pomieszczenia bez klasycznego nadzoru wizualnego.
Możliwe zastosowania: od logistyki po inteligentny dom
Najbardziej bezpośrednie zastosowania biznesowe widać w logistyce i magazynach. Jeśli robot może bardziej niezawodnie oszacować zawartość paczki lub kształt przedmiotu ukrytego wewnątrz kartonowego opakowania, łatwiej sprawdzić, czy zamówienie zostało prawidłowo zapakowane przed wysyłką. MIT w swoim komunikacie jako jeden z przykładów podaje ograniczenie odpadów związanych ze zwrotami towarów, co jest szczególnie wrażliwym tematem w handlu elektronicznym, gdzie błędnie dostarczone produkty generują koszt, dodatkowy transport i niepotrzebne nagromadzenie opakowań. W magazynie otwiera to również możliwość, by robot jeszcze przed samym chwytem uzyskał bardziej realistyczną ocenę kształtu przedmiotu ukrytego za innymi pudłami lub pod materiałem opakowaniowym.
Druga grupa zastosowań dotyczy robotów domowych i usługowych. System, który bez kamery może oszacować, gdzie znajduje się człowiek w pomieszczeniu, dokąd się porusza i jak wygląda układ mebli, mógłby być przydatny do nawigacji robotów pomocniczych, zwłaszcza w dynamicznych warunkach domowych. W takim środowisku przeszkody nie są statyczne: drzwi się otwierają, krzesła zmieniają położenie, przedmioty pozostają na podłodze, a ludzie stale się poruszają. Dla robota, który ma współpracować z człowiekiem, nie wystarczy tylko "widzieć" tego, co znajduje się dokładnie przed nim; musi on także rozumieć to, co jest częściowo zasłonięte, a także szerszy układ sceny.
Trzeba jednak podkreślić, że MIT nie twierdzi, iż jest to gotowy produkt komercyjny przygotowany na rynek masowy. Są to systemy badawcze zaprezentowane na konferencji naukowej, z wynikami pokazującymi kierunek rozwoju, ale wciąż pozostawiającymi otwarte pytania dotyczące kosztu sprzętu, odporności w różnych rzeczywistych warunkach, szybkości działania i możliwej integracji z innymi rodzajami czujników. Sama grupa badawcza podaje, że chce zwiększyć granularność i szczegółowość rekonstrukcji oraz w przyszłości budować większe modele podstawowe dla sygnałów bezprzewodowych, analogiczne do tego, czym GPT, Claude czy Gemini stały się dla języka i wizji.
Kto stoi za pracą i dlaczego CVPR jest ważne
Starszym autorem obu prac jest Fadel Adib, profesor nadzwyczajny MIT Media Lab i EECS oraz kierownik grupy Signal Kinetics. Według MIT w pracy nad Wave-Former uczestniczyła Laura Dodds jako główna autorka oraz Maisy Lam, Waleed Akbar i Yibo Cheng, natomiast autorami pracy o RISE są Kaichen Zhou, Laura Dodds, Sayed Saad Afzal i Fadel Adib. Na oficjalnej stronie Adiba i liście publikacji obie prace są wymienione jako nadchodzące prace na CVPR 2026. Sama konferencja CVPR zalicza się do najważniejszych światowych spotkań w dziedzinie widzenia komputerowego i rozpoznawania wzorców, a oficjalna strona podaje, że tegoroczna edycja odbędzie się w Colorado Convention Center w Denver od 3 do 7 czerwca 2026 roku.
Jest to istotne również dlatego, że prace MIT nie pochodzą z odizolowanego środowiska laboratoryjnego, lecz trafiają na międzynarodową arenę naukową, na której porównuje się je z najnowszymi trendami w widzeniu komputerowym, modelach multimodalnych, robotyce i systemach rozumienia sceny. W ostatnich kilku latach generatywna sztuczna inteligencja silnie wpłynęła na przetwarzanie obrazu, rekonstrukcję 3D i modelowanie przestrzeni, lecz wkład MIT polega na tym, że tę falę stosuje do danych, które nie są klasycznymi fotografiami, lecz bezprzewodowymi odbiciami obciążonymi specyficznymi ograniczeniami fizycznymi. Dzięki temu badanie pozycjonuje się nie tylko jako kolejny demonstrator AI, lecz jako próba połączenia modeli uczących się z rzeczywistymi prawami propagacji sygnału.
Co naprawdę zmienia się dla przyszłych robotów
Największa zmiana nie polega na tym, że roboty nagle będą "widzieć przez ściany" w sposób, jaki czasem wyobraża sobie kultura popularna. Znacznie ważniejsze jest to, że mogłyby podejmować mniej błędnych decyzji w sytuacjach, w których dziś działają na podstawie niepełnych informacji. W magazynie może to oznaczać mniej chybionych chwytów i mniej uszkodzeń towaru. W domu może to oznaczać bezpieczniejsze poruszanie się obok ludzi, dzieci lub zwierząt domowych. W środowisku przemysłowym może to oznaczać lepsze rozumienie strefy za przeszkodą bez instalowania dodatkowych kamer w każdym punkcie przestrzeni.
Komunikat MIT sugeruje, że generatywna sztuczna inteligencja w tym przypadku nie służy tylko upiększaniu obrazu, lecz korygowaniu głębokiego ograniczenia bezprzewodowej percepcji: czujnik widzi tylko fragmenty, a model pomaga wywnioskować, czego brakuje. Jeśli uda się dalej skalować to podejście i potwierdzić je w różnych środowiskach, mogłoby ono otworzyć nową klasę systemów łączących mniej inwazyjną pod względem prywatności percepcję z praktycznym zastosowaniem w robotyce, logistyce i inteligentnych przestrzeniach. Na razie są to badania, które dopiero muszą przejść drogę od laboratorium do szerokiego zastosowania, ale opublikowane wyniki pokazują, że granica między tym, co ukryte, a tym, co maszyna jest w stanie zrozumieć, powoli, ale wyraźnie się przesuwa.
Źródła:- MIT News – publikacja o nowych systemach Wave-Former i RISE, autorach, zastosowaniach i dacie prezentacji na CVPR (link)- CVPR 2026 – oficjalna strona konferencji z datami i lokalizacją wydarzenia (link)- MIT / Fadel Adib – oficjalna strona badacza i grupy Signal Kinetics z przeglądem prac nad bezprzewodową percepcją i listą nadchodzących publikacji (link)- arXiv – streszczenie pracy "Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion" z metodą i wynikami (link)- arXiv – streszczenie pracy "RISE: Single Static Radar-based Indoor Scene Understanding" z opisem benchmarku i miar skuteczności (link)
Czas utworzenia: 2 godzin temu