Postavke privatnosti

MIT i generatywna sztuczna inteligencja: jak roboty za pomocą sygnałów bezprzewodowych widzą ukryte przedmioty i pomieszczenia

Dowiedz się, jak badacze z MIT połączyli generatywną sztuczną inteligencję i bezprzewodowe sygnały mmWave, aby roboty mogły precyzyjniej wykrywać ukryte przedmioty i rekonstruować pomieszczenia bez kamer. Przedstawiamy przegląd technologii, możliwych zastosowań i powodów, dla których może ona zmienić robotykę.

MIT i generatywna sztuczna inteligencja: jak roboty za pomocą sygnałów bezprzewodowych widzą ukryte przedmioty i pomieszczenia
Photo by: Domagoj Skledar - illustration/ arhiva (vlastita)

Generatywna sztuczna inteligencja pomaga robotom "widzieć" przez przeszkody: MIT zaprezentował system, który z bezprzewodowych odbić rekonstruuje ukryte przedmioty i całe pomieszczenia

Badacze z Massachusetts Institute of Technology zaprezentowali nową generację bezprzewodowego "widzenia", która mogłaby znacząco zmienić sposób, w jaki roboty znajdują przedmioty, poruszają się w zamkniętych przestrzeniach i pracują obok ludzi. W centrum ich pracy znajduje się połączenie fal milimetrowych, rodzaju sygnału bezprzewodowego używanego także we współczesnych systemach komunikacyjnych, z generatywną sztuczną inteligencją, która uzupełnia to, czego czujnik nie może bezpośrednio zarejestrować. Rezultatem są dwie techniki, które z odbitych sygnałów mogą dokładniej rekonstruować kształt ukrytego przedmiotu, ale także układ całego pomieszczenia z meblami, i to bez klasycznych kamer oraz bez potrzeby montowania czujnika na poruszającym się robocie. MIT poinformował, że obie prace zostaną zaprezentowane na konferencji IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026, która odbędzie się od 3 do 7 czerwca 2026 roku w Denver.

Choć idea "widzenia przez przeszkody" brzmi jak science fiction, jest to dziedzina, nad którą laboratorium profesora Fadela Adiba pracuje od ponad dekady. Jego grupa badawcza Signal Kinetics w MIT Media Lab i na Wydziale Elektrotechniki i Informatyki rozwija systemy wykorzystujące sygnały bezprzewodowe do postrzegania świata w sytuacjach, w których ludzki wzrok i klasyczne kamery są ograniczone. Według MIT nowa faza tych prac to nie tylko techniczne ulepszenie wcześniejszych metod, lecz swoisty jakościowy skok: od częściowych rekonstrukcji do rozumienia złożonych odbić i tworzenia pełniejszego obrazu obiektów oraz przestrzeni zasłoniętych przed bezpośrednim widokiem.

Jak system działa, gdy przedmiot znajduje się poza zasięgiem wzroku

Dotychczasowe systemy MIT opierały się na falach milimetrowych, czyli sygnałach mmWave, które mogą przenikać przez typowe przeszkody, takie jak płyta gipsowo-kartonowa, plastik, karton lub tkanina, i odbijać się od ukrytego przedmiotu. Na podstawie tych odbić można oszacować, gdzie znajduje się przedmiot, i częściowo określić jego kształt. Problem polega na tym, że takie fale często odbijają się zwierciadlanie, w jednym dominującym kierunku. Z tego powodu czujnik zwykle "widzi" tylko część powierzchni, na przykład górną stronę przedmiotu, podczas gdy powierzchnie boczne i dolne pozostają poza zasięgiem pomiaru. Właśnie ta niepełna geometria przez lata była jednym z głównych ograniczeń bezprzewodowej percepcji 3D.

Nowy system MIT, Wave-Former, próbuje rozwiązać właśnie ten problem. Zamiast zatrzymywać się na zgrubnej i niepełnej rekonstrukcji, system najpierw proponuje możliwe powierzchnie przedmiotu na podstawie dostępnych odbić, następnie przekazuje generatywnemu modelowi dokończenie jego kształtu, a potem dodatkowo dopracowuje wynik. Innymi słowy, czujnik dostarcza częściowych informacji, a model uczy się, jak z tych fragmentów wywnioskować najbardziej prawdopodobny pełny kształt 3D. Badacze podkreślają przy tym, że model nie działa arbitralnie i nie "wymyśla" geometrii bez podstaw, lecz został wytrenowany tak, by brać pod uwagę właściwości fizyczne odbić mmWave oraz wzorce szumu charakterystyczne dla takich pomiarów.

To ważne, ponieważ w takich systemach bardzo łatwo przekroczyć granicę między użytecznym oszacowaniem a spekulacją. Właśnie dlatego zespół MIT nie potraktował generatywnej sztucznej inteligencji jako uniwersalnego magicznego narzędzia, lecz powiązał ją z fizycznym modelem propagacji sygnału. Ponieważ nie istnieją ogromne zbiory danych z nagraniami mmWave ukrytych przedmiotów, badacze dostosowali istniejące zbiory danych komputerowego widzenia tak, aby naśladowały lustrzaność i szum charakterystyczne dla odbić bezprzewodowych. W ten sposób, zamiast wieloletniego gromadzenia nowej bazy, stworzyli syntetyczny zbiór danych, na którym model mógł nauczyć się, jak wygląda "brakująca" część kształtu, gdy informacja wejściowa jest niepełna i zdegradowana.

Według streszczenia pracy dostępnego w arXiv, Wave-Former w bezpośrednim porównaniu z najlepszymi istniejącymi podejściami zwiększył recall z 54 do 72 procent przy zachowaniu wysokiej precyzji na poziomie 85 procent. MIT News opisuje tę zmianę także na poziomie praktycznym: system wiernie zrekonstruował około 70 codziennych przedmiotów, w tym puszki, pudełka, sztućce i owoce, gdy były ukryte za kartonem, drewnem, płytą gipsowo-kartonową, plastikiem i tkaniną. W kontekście robotyki oznacza to, że maszyna nie musiałaby już zgadywać, co dokładnie znajduje się za przeszkodą lub w pudełku, lecz otrzymałaby bardziej przekonującą przestrzenną ocenę przedmiotu, zanim spróbuje go chwycić, posortować lub sprawdzić zawartość.

Od ukrytego przedmiotu do mapy całego pomieszczenia

Drugi system, nazwany RISE, idzie o krok dalej i nie zajmuje się tylko jednym przedmiotem, lecz próbuje zrekonstruować całe wnętrze. Także w tym przypadku podstawą są sygnały mmWave, ale tym razem badacze wykorzystują fakt, że ludzie poruszają się po pomieszczeniu. Kiedy osoba się porusza, część sygnału odbija się od niej, następnie ponownie od ścian lub mebli, a dopiero potem wraca do czujnika. Takie wtórne odbicia tradycyjnie uznawano za zakłócenia lub "duchy" w sygnale, ponieważ tworzą fałszywe lub przesunięte kopie pierwotnego odbicia. Podejście MIT opiera się na przeciwstawnym założeniu: te "duchy" w rzeczywistości niosą informację o układzie przestrzeni.

Innymi słowy, to, co wcześniej odrzucano jako szum, staje się źródłem danych. RISE obserwuje, jak wtórne odbicia zmieniają się, gdy osoba porusza się po pomieszczeniu, i na podstawie tych zmian buduje zgrubny obraz przestrzenny. Następnie model generatywny uzupełnia luki i poprawia rozdzielczość początkowej rekonstrukcji. Według streszczenia w arXiv jest to pierwszy system i pierwszy benchmark do rozumienia wnętrz przy użyciu jednego statycznego radaru, przy czym system jednocześnie celuje w rekonstrukcję układu przestrzennego oraz w detekcję obiektów. Badacze podają, że ich zbiór danych zawiera 50 000 klatek zebranych w trakcie ponad 100 rzeczywistych trajektorii ruchu we wnętrzach.

W opublikowanych wynikach RISE zmniejszył odległość Chamfera, miarę błędu rekonstrukcji geometrii, o 60 procent, do 16 centymetrów, w porównaniu z dotychczasowymi metodami. Ponadto praca podaje także 58 procent IoU dla detekcji obiektów, co autorzy opisują jako pierwszy wynik tego rodzaju w rozumieniu pomieszczenia mmWave opartym na jednym statycznym radarze. MIT News podsumowuje ten postęp prościej: zrekonstruowane sceny były mniej więcej dwa razy dokładniejsze niż istniejące techniki. Nie jest to poziom szczegółowości oferowany przez kamery lub LiDAR, ale jest to bardzo ważny krok naprzód w sytuacjach, w których czujniki optyczne mają ograniczenia z powodu zasłonięcia, słabej widoczności lub kwestii prywatności.

Dlaczego MIT mówi o prywatności, a nie tylko o robotyce

W obu pracach mocno podkreślany jest także jeden społecznie wrażliwy wymiar: prywatność. Klasyczne systemy rozumienia przestrzeni wewnętrznej często opierają się na kamerach, czujnikach głębi lub LiDAR-ze, które mogą dać bardzo szczegółowy obraz osoby, jej wyglądu, twarzy i zachowania. Bezprzewodowe podejście rozwijane przez MIT nie pracuje z wizualną tożsamością osoby, lecz z odbitymi sygnałami, z których wyciąga się wnioski o geometrii przestrzeni i położeniu ciała względem otoczenia. Nie oznacza to, że każda wątpliwość dotycząca prywatności jest automatycznie rozwiązana, ale oznacza, że podstawowy projekt systemu jest mniej inwazyjny niż stałe nagrywanie wnętrz wideo.

W praktyce taka różnica mogłaby mieć znaczenie w domach opieki dla osób starszych, w inteligentnych domach, szpitalach, magazynach i zakładach przemysłowych. Robot, który musi wiedzieć, czy za rogiem znajduje się człowiek, czy przejście jest wolne albo gdzie został odłożony przedmiot, nie musi koniecznie mieć kamery stale nagrywającej wszystko, co się dzieje. Właśnie dlatego autorzy z MIT na pierwszy plan wysuwają scenariusze współpracy człowieka i maszyny, bezpieczniejszego poruszania się robotów w zamkniętych przestrzeniach oraz lepszego rozumienia pomieszczenia bez klasycznego nadzoru wizualnego.

Możliwe zastosowania: od logistyki po inteligentny dom

Najbardziej bezpośrednie zastosowania biznesowe widać w logistyce i magazynach. Jeśli robot może bardziej niezawodnie oszacować zawartość paczki lub kształt przedmiotu ukrytego wewnątrz kartonowego opakowania, łatwiej sprawdzić, czy zamówienie zostało prawidłowo zapakowane przed wysyłką. MIT w swoim komunikacie jako jeden z przykładów podaje ograniczenie odpadów związanych ze zwrotami towarów, co jest szczególnie wrażliwym tematem w handlu elektronicznym, gdzie błędnie dostarczone produkty generują koszt, dodatkowy transport i niepotrzebne nagromadzenie opakowań. W magazynie otwiera to również możliwość, by robot jeszcze przed samym chwytem uzyskał bardziej realistyczną ocenę kształtu przedmiotu ukrytego za innymi pudłami lub pod materiałem opakowaniowym.

Druga grupa zastosowań dotyczy robotów domowych i usługowych. System, który bez kamery może oszacować, gdzie znajduje się człowiek w pomieszczeniu, dokąd się porusza i jak wygląda układ mebli, mógłby być przydatny do nawigacji robotów pomocniczych, zwłaszcza w dynamicznych warunkach domowych. W takim środowisku przeszkody nie są statyczne: drzwi się otwierają, krzesła zmieniają położenie, przedmioty pozostają na podłodze, a ludzie stale się poruszają. Dla robota, który ma współpracować z człowiekiem, nie wystarczy tylko "widzieć" tego, co znajduje się dokładnie przed nim; musi on także rozumieć to, co jest częściowo zasłonięte, a także szerszy układ sceny.

Trzeba jednak podkreślić, że MIT nie twierdzi, iż jest to gotowy produkt komercyjny przygotowany na rynek masowy. Są to systemy badawcze zaprezentowane na konferencji naukowej, z wynikami pokazującymi kierunek rozwoju, ale wciąż pozostawiającymi otwarte pytania dotyczące kosztu sprzętu, odporności w różnych rzeczywistych warunkach, szybkości działania i możliwej integracji z innymi rodzajami czujników. Sama grupa badawcza podaje, że chce zwiększyć granularność i szczegółowość rekonstrukcji oraz w przyszłości budować większe modele podstawowe dla sygnałów bezprzewodowych, analogiczne do tego, czym GPT, Claude czy Gemini stały się dla języka i wizji.

Kto stoi za pracą i dlaczego CVPR jest ważne

Starszym autorem obu prac jest Fadel Adib, profesor nadzwyczajny MIT Media Lab i EECS oraz kierownik grupy Signal Kinetics. Według MIT w pracy nad Wave-Former uczestniczyła Laura Dodds jako główna autorka oraz Maisy Lam, Waleed Akbar i Yibo Cheng, natomiast autorami pracy o RISE są Kaichen Zhou, Laura Dodds, Sayed Saad Afzal i Fadel Adib. Na oficjalnej stronie Adiba i liście publikacji obie prace są wymienione jako nadchodzące prace na CVPR 2026. Sama konferencja CVPR zalicza się do najważniejszych światowych spotkań w dziedzinie widzenia komputerowego i rozpoznawania wzorców, a oficjalna strona podaje, że tegoroczna edycja odbędzie się w Colorado Convention Center w Denver od 3 do 7 czerwca 2026 roku.

Jest to istotne również dlatego, że prace MIT nie pochodzą z odizolowanego środowiska laboratoryjnego, lecz trafiają na międzynarodową arenę naukową, na której porównuje się je z najnowszymi trendami w widzeniu komputerowym, modelach multimodalnych, robotyce i systemach rozumienia sceny. W ostatnich kilku latach generatywna sztuczna inteligencja silnie wpłynęła na przetwarzanie obrazu, rekonstrukcję 3D i modelowanie przestrzeni, lecz wkład MIT polega na tym, że tę falę stosuje do danych, które nie są klasycznymi fotografiami, lecz bezprzewodowymi odbiciami obciążonymi specyficznymi ograniczeniami fizycznymi. Dzięki temu badanie pozycjonuje się nie tylko jako kolejny demonstrator AI, lecz jako próba połączenia modeli uczących się z rzeczywistymi prawami propagacji sygnału.

Co naprawdę zmienia się dla przyszłych robotów

Największa zmiana nie polega na tym, że roboty nagle będą "widzieć przez ściany" w sposób, jaki czasem wyobraża sobie kultura popularna. Znacznie ważniejsze jest to, że mogłyby podejmować mniej błędnych decyzji w sytuacjach, w których dziś działają na podstawie niepełnych informacji. W magazynie może to oznaczać mniej chybionych chwytów i mniej uszkodzeń towaru. W domu może to oznaczać bezpieczniejsze poruszanie się obok ludzi, dzieci lub zwierząt domowych. W środowisku przemysłowym może to oznaczać lepsze rozumienie strefy za przeszkodą bez instalowania dodatkowych kamer w każdym punkcie przestrzeni.

Komunikat MIT sugeruje, że generatywna sztuczna inteligencja w tym przypadku nie służy tylko upiększaniu obrazu, lecz korygowaniu głębokiego ograniczenia bezprzewodowej percepcji: czujnik widzi tylko fragmenty, a model pomaga wywnioskować, czego brakuje. Jeśli uda się dalej skalować to podejście i potwierdzić je w różnych środowiskach, mogłoby ono otworzyć nową klasę systemów łączących mniej inwazyjną pod względem prywatności percepcję z praktycznym zastosowaniem w robotyce, logistyce i inteligentnych przestrzeniach. Na razie są to badania, które dopiero muszą przejść drogę od laboratorium do szerokiego zastosowania, ale opublikowane wyniki pokazują, że granica między tym, co ukryte, a tym, co maszyna jest w stanie zrozumieć, powoli, ale wyraźnie się przesuwa.

Źródła:
- MIT News – publikacja o nowych systemach Wave-Former i RISE, autorach, zastosowaniach i dacie prezentacji na CVPR (link)
- CVPR 2026 – oficjalna strona konferencji z datami i lokalizacją wydarzenia (link)
- MIT / Fadel Adib – oficjalna strona badacza i grupy Signal Kinetics z przeglądem prac nad bezprzewodową percepcją i listą nadchodzących publikacji (link)
- arXiv – streszczenie pracy "Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion" z metodą i wynikami (link)
- arXiv – streszczenie pracy "RISE: Single Static Radar-based Indoor Scene Understanding" z opisem benchmarku i miar skuteczności (link)

Znajdź nocleg w pobliżu

Czas utworzenia: 2 godzin temu

Redakcja nauki i technologii

Nasza Redakcja Nauki i Technologii powstała z wieloletniej pasji do badania, interpretowania i przybliżania złożonych tematów zwykłym czytelnikom. Piszą u nas pracownicy i wolontariusze, którzy od dziesięcioleci śledzą rozwój nauki i innowacji technologicznych – od odkryć laboratoryjnych po rozwiązania zmieniające codzienne życie. Choć piszemy w liczbie mnogiej, za każdym tekstem stoi prawdziwa osoba z dużym doświadczeniem redakcyjnym i dziennikarskim oraz głębokim szacunkiem dla faktów i informacji możliwych do zweryfikowania.

Nasza redakcja opiera swoją pracę na przekonaniu, że nauka jest najsilniejsza wtedy, gdy jest dostępna dla wszystkich. Dlatego dążymy do jasności, precyzji i zrozumiałości, unikając uproszczeń, które mogłyby obniżyć jakość treści. Często spędzamy godziny, analizując badania, dokumenty techniczne i źródła specjalistyczne, aby każdy temat przedstawić w sposób ciekawy, a nie obciążający. W każdym tekście staramy się łączyć wiedzę naukową z codziennym życiem, pokazując, jak idee z ośrodków badawczych, uniwersytetów i laboratoriów technologicznych kształtują świat wokół nas.

Wieloletnie doświadczenie dziennikarskie pozwala nam rozpoznać to, co dla czytelnika naprawdę ważne – niezależnie od tego, czy chodzi o postępy w sztucznej inteligencji, odkrycia medyczne, rozwiązania energetyczne, misje kosmiczne czy urządzenia, które trafiają do naszego życia codziennego, zanim zdążymy pomyśleć o ich możliwościach. Nasze spojrzenie na technologię nie jest wyłącznie techniczne; interesują nas także ludzkie historie stojące za wielkimi osiągnięciami – badacze, którzy latami dopracowują projekty, inżynierowie zamieniający idee w działające systemy oraz wizjonerzy przesuwający granice możliwości.

W naszej pracy kieruje nami również poczucie odpowiedzialności. Chcemy, by czytelnik mógł zaufać informacjom, które podajemy, dlatego sprawdzamy źródła, porównujemy dane i nie spieszymy się z publikacją, jeśli coś nie jest całkowicie jasne. Zaufanie buduje się wolniej niż pisze wiadomość, ale wierzymy, że tylko taki dziennikarski wysiłek ma trwałą wartość.

Dla nas technologia to coś więcej niż urządzenia, a nauka to coś więcej niż teoria. To dziedziny, które napędzają postęp, kształtują społeczeństwo i otwierają nowe możliwości dla wszystkich, którzy chcą zrozumieć, jak działa świat dziś i dokąd zmierza jutro. Dlatego podchodzimy do każdego tematu z powagą, ale i z ciekawością – bo to właśnie ciekawość otwiera drzwi najlepszym tekstom.

Naszą misją jest przybliżanie czytelnikom świata, który zmienia się szybciej niż kiedykolwiek wcześniej, w przekonaniu, że rzetelne dziennikarstwo może być mostem między ekspertami, innowatorami i wszystkimi, którzy chcą zrozumieć, co dzieje się za nagłówkami. W tym widzimy nasze właściwe zadanie: przekształcać to, co złożone, w zrozumiałe, to, co odległe, w bliskie, a to, co nieznane, w inspirujące.

UWAGA DLA NASZYCH CZYTELNIKÓW
Karlobag.eu dostarcza wiadomości, analizy i informacje o globalnych wydarzeniach oraz tematach interesujących czytelników na całym świecie. Wszystkie opublikowane informacje służą wyłącznie celom informacyjnym.
Podkreślamy, że nie jesteśmy ekspertami w dziedzinie nauki, medycyny, finansów ani prawa. Dlatego przed podjęciem jakichkolwiek decyzji na podstawie informacji z naszego portalu zalecamy konsultację z wykwalifikowanymi ekspertami.
Karlobag.eu może zawierać linki do zewnętrznych stron trzecich, w tym linki afiliacyjne i treści sponsorowane. Jeśli kupisz produkt lub usługę za pośrednictwem tych linków, możemy otrzymać prowizję. Nie mamy kontroli nad treścią ani politykami tych stron i nie ponosimy odpowiedzialności za ich dokładność, dostępność ani za jakiekolwiek transakcje przeprowadzone za ich pośrednictwem.
Jeśli publikujemy informacje o wydarzeniach lub sprzedaży biletów, prosimy pamiętać, że nie sprzedajemy biletów ani bezpośrednio, ani poprzez pośredników. Nasz portal wyłącznie informuje czytelników o wydarzeniach i możliwościach zakupu biletów poprzez zewnętrzne platformy sprzedażowe. Łączymy czytelników z partnerami oferującymi usługi sprzedaży biletów, jednak nie gwarantujemy ich dostępności, cen ani warunków zakupu. Wszystkie informacje o biletach pochodzą od stron trzecich i mogą ulec zmianie bez wcześniejszego powiadomienia.
Wszystkie informacje na naszym portalu mogą ulec zmianie bez wcześniejszego powiadomienia. Korzystając z tego portalu, zgadzasz się czytać treści na własne ryzyko.