Rozsiąść się w fotelu i wypowiedzieć proste zdanie, takie jak: „Zrób mi krzesło”, a następnie patrzeć, jak robotyczne ramię w kilka minut składa fizyczny obiekt przed tobą – jeszcze do niedawna brzmiało to jak scena z science fiction. W grudniu 2025 roku to rzeczywistość w laboratoriach Massachusetts Institute of Technology (MIT), gdzie badacze łączą generatywną sztuczną inteligencję, systemy widzenia komputerowego i montaż robotyczny w unikalny, w pełni zautomatyzowany proces projektowo-produkcyjny.
Zamiast klasycznego projektowania wspomaganego komputerowo (CAD), które wymaga eksperckich umiejętności, godzin modelowania i szczegółowej znajomości oprogramowania, nowy system oparty na sztucznej inteligencji pozwala na opisanie złożonego, wielokomponentowego obiektu zwykłym językiem. Modele generatywnej sztucznej inteligencji tworzą z tekstu trójwymiarową reprezentację pożądanego przedmiotu, a następnie model wizyjno-językowy (VLM) rozkłada tę geometrię na standaryzowane części fizyczne, które robot może natychmiast zacząć składać.
Mowa o pracy badawczej, która pokazuje, jak przepaść między cyfrowym projektem a fizyczną produkcją może zostać drastycznie zmniejszona. Ten sam zespół w ostatnich miesiącach poszedł też krok dalej: na podstawie tych samych zasad opracowano system „speech-to-reality”, który nie wymaga już nawet wpisywania tekstu – wystarczy wypowiedzieć zamówienie, a modułowe meble i inne przedmioty powstają w zaledwie kilka minut.
Dlaczego klasyczny CAD stał się wąskim gardłem projektowania
Komputerowo wspomagane narzędzia projektowe nadal są standardem w przemyśle, od motoryzacyjnego i lotniczego po budowlany i elektronikę użytkową. Jednak te same narzędzia, które są potężne i precyzyjne, jednocześnie stanowią barierę dla wszystkich, którzy nie mają specjalistycznej wiedzy. Krzywa uczenia się jest stroma, interfejsy są skomplikowane, a szczegółowa kontrola nad każdą śrubą czy powierzchnią jest często przesadzona we wczesnych fazach projektu, kiedy dla użytkownika najważniejsze jest szybkie wypróbowanie wielu pomysłów i zobaczenie ich w przestrzeni fizycznej.
Generatywna SI w ostatnich kilku latach pokazała, że z krótkiego tekstu może tworzyć obrazy, modele 3D i całe wirtualne sceny. Jednak większość tych cyfrowych obiektów pozostaje uwięziona w wirtualnym świecie. Geometria tworzona przez modele często jest nieregularna, nie ma jasnej struktury komponentów i nie bierze pod uwagę ograniczeń fizycznej produkcji. Innymi słowy, to co wygląda dobrze na ekranie, niekoniecznie oznacza, że może zostać łatwo, szybko i tanio złożone w rzeczywistości.
Podejście MIT właśnie tutaj wyznacza nowy standard: celem nie jest tylko wygenerowanie ładnego modelu cyfrowego, ale doprowadzenie go do formy nadającej się do automatycznego montażu z prefabrykowanych elementów. Tym samym generatywna SI przestaje być narzędziem do inspiracji i staje się częścią rzeczywistej linii produkcyjnej.
Od tekstu do modelu 3D: jak system „rozumie” geometrię i funkcję
Praca wychodzi od prostej interakcji: użytkownik wpisuje w interfejs tekstowy żądanie – na przykład „zrób mi krzesło” albo „potrzebuję półki z trzema poziomami”. Generatywny model 3D na podstawie tego opisu tworzy siatkową reprezentację obiektu, znaną jako mesh. Ta siatka opisuje powierzchnię i objętość przyszłego przedmiotu, ale wciąż nie mówi nic o tym, z jakich fizycznych części będzie się on składał i jak będą one łączone.
W kolejnym kroku rolę przejmuje model wizyjno-językowy, rodzaj systemu generatywnej SI, który jest wytrenowany na dużej ilości obrazów, opisów tekstowych i zadań rozumienia sceny. Jego zadaniem jest „spojrzeć” na trójwymiarowy model i wywnioskować, jakie są funkcjonalne całości obiektu: gdzie znajduje się siedzisko, gdzie oparcie, gdzie nogi, co jest powierzchniami, na których będzie się opierać ludzkie ciało, a co elementami, które przede wszystkim przenoszą obciążenie konstrukcyjne.
Badacze pracują z dwiema podstawowymi grupami prefabrykowanych komponentów: elementami strukturalnymi, które tworzą szkielet obiektu, i elementami płytowymi (panelami), które formują płaskie powierzchnie, takie jak siedziska czy półki. Model wizyjno-językowy musi na podstawie geometrii i funkcji zdecydować, gdzie jaki typ komponentu jest używany. Tak na przykład rozpoznaje, że siedzisko i oparcie krzesła potrzebują płyt, podczas gdy nogi i poprzeczne łączenia pozostają wykonane w segmentach strukturalnych.
To, co czyni to podejście szczególnie interesującym, to fakt, że model nie polega na ręcznie zaprogramowanych regułach dla krzesła, półki czy stołu. Zamiast tego wykorzystuje wiedzę zdobytą podczas uczenia się na wielu obrazach i opisach obiektów, aby generalizować na nowe kształty wygenerowane przez SI. Dzięki temu ten sam system, bez dodatkowego treningu, może pracować z różnymi typami mebli i innymi przedmiotami użytkowymi.
Przydział komponentów i przygotowanie do montażu robotycznego
Po tym jak model wizyjno-językowy zbuduje zrozumienie funkcji, system przechodzi na poziom praktyczny: dla każdej powierzchni na siatce 3D przydziela znaczniki, które definiują, czy należy tam zamontować element płytowy czy nie. Powierzchnie są numerowane, a przydziały komponentów wracają z powrotem do modelu, aby dodatkowo zgrać się z geometrią i fizycznymi ograniczeniami montażu.
Rezultatem jest ustrukturyzowany model, w którym każdy fragment obiektu jest powiązany z jednym z góry zdefiniowanych typów prefabrykatów. To kluczowy krok, który umożliwia, by cyfrowy projekt został przelany w konkretny zestaw instrukcji dla robotycznego ramienia: ile elementów jest potrzebnych, gdzie są umieszczane, w jakiej kolejności są łączone i jak unikać kolizji podczas montażu.
System robotyczny następnie przejmuje przygotowany plan i zaczyna układać obiekt na powierzchni roboczej. Ponieważ wszystkie części są standaryzowane i wielokrotnego użytku, proces jest szybki i bardzo czysty: nie ma wiórów, nie ma czasu oczekiwania na wyschnięcie kleju, nie ma odpadów, które skończyłyby w śmieciach. Kiedy użytkownikowi ten mebel nie jest już potrzebny, może zostać rozłożony, a z tych samych części można złożyć coś zupełnie nowego.
Ludzkie-robotyczne współautorstwo: użytkownik pozostaje w pętli
Chociaż system automatyzuje dużą część procesu, badacze podkreślili wagę tego, by człowiek pozostał kreatywnym partnerem. Po wstępnej propozycji projektu, użytkownik może w języku naturalnym zadawać dodatkowe instrukcje: na przykład zażądać, by płyty były tylko na oparciu, a nie na siedzisku, by krzesło było niższe lub wyższe, by półka miała więcej poziomów lub by nacisk został położony na wizualną przewiewność zamiast na pełną powierzchnię.
Każda taka zmiana ponownie aktywuje model generatywny i moduł wizyjno-językowy, które uzgadniają nowy opis z istniejącym modelem 3D i strukturą komponentów. W ten sposób powstaje iteracyjny cykl kreatywny: system proponuje rozwiązania, użytkownik je ukierunkowuje i koryguje, a robot zamienia je w fizyczne prototypy. Zamiast zajmować się precyzyjnymi współrzędnymi i parametrami, człowiek myśli o funkcji, estetyce i scenariuszach użycia.
Takie podejście „human-in-the-loop” ma też ważny wymiar psychologiczny. Uczestnicy badań użytkowników często podkreślali poczucie współautorstwa nad obiektami, które formalnie złożyło ramię robota: finalny rezultat postrzegali jako „swoje” krzesło lub półkę właśnie dlatego, że ukształtowali je poprzez rozmowę z systemem, a nie poprzez klikanie po skomplikowanym interfejsie CAD.
Wyniki testów z użytkownikami: preferencja dla projektu SI
Aby ilościowo ocenić wartość swojego podejścia, badacze przeprowadzili badanie, w którym uczestnicy oceniali różne wersje tych samych obiektów. Jedna grupa projektów powstała przy pomocy ich systemu napędzanego SI z modelem wizyjno-językowym, druga została wygenerowana algorytmem, który mechanicznie umieszcza płyty na wszystkich poziomych powierzchniach skierowanych w górę, podczas gdy trzecia była wynikiem losowego rozmieszczenia płyt.
Ponad dziewięćdziesiąt procent uczestników preferowało obiekty powstałe systemem łączącym generatywną SI i VLM w stosunku do alternatywnych podejść. Szczególnie podkreślali logiczne rozmieszczenie powierzchni do siedzenia lub odkładania rzeczy, poczucie stabilności strukturalnej oraz wizualną spójność całości. Losowe rozmieszczenie płyt zostało odebrane jako chaotyczne, a czysto geometryczna reguła „wszystkie poziome płaszczyzny pokryć płytami” okazała się zbyt toporna, by zadowolić rzeczywiste potrzeby użytkowników.
Proces montażu okazał się również efektywny czasowo. Dzięki standaryzowanym modułom strukturalnym i płytom, robot mógł w krótkim czasie złożyć cały szereg różnych konfiguracji – od prostych krzeseł i taboretów, przez półki, do bardziej złożonych mebli, które w klasycznej produkcji wymagałyby wykonania specjalnych narzędzi lub form.
Od tekstu do mowy: „speech-to-reality” jako logiczny kolejny krok
Na podstawie doświadczeń zdobytych w pracy z opisami tekstowymi, zespół rozszerzył koncepcję również na mowę. Nowy system „speech-to-reality” usuwa też ostatnią barierę technologiczną dla niedoświadczonych użytkowników: nie jest już konieczne nawet wymyślanie krótkich pisemnych instrukcji, wystarczy w pomieszczeniu powiedzieć, że chce się proste krzesło, półkę na książki lub mały stolik pomocniczy.
Sygnał mowy najpierw przechodzi przez standardowe przetwarzanie i jest zamieniany na tekst, po czym przejmuje go ta sama infrastruktura generatywnej SI: model generuje kształt 3D, system rozkłada go na modułowe komponenty, a planer określa optymalną kolejność i sposób składania. Rezultat jest ściśle powiązany z wcześniejszą pracą nad tekstem, ale doświadczenie użytkownika jest jeszcze bardziej naturalne – komunikacja z robotem jest coraz bardziej podobna do rozmowy z ludzkim stolarzem lub projektantem.
Zamiast dwóch typów prefabrykatów, „speech-to-reality” w pierwszej implementacji opiera się na sieci identycznych sześciennych modułów, które robot układa w strukturę kratownicową. Takie podejście wokselowe ułatwia dyskretyzację złożonej geometrii: czy to jest krzesło, półka, mały stół czy dekoracyjny pies, obiekt może zostać rozłożony na kombinację kostek, które robot łatwo chwyta, pozycjonuje i łączy.
Eksperymenty w laboratorium pokazały, że system może w zaledwie kilka minut wykonać prostsze meble, które są wystarczająco wytrzymałe do codziennego użytku w warunkach prototypowych. Badacze równolegle pracują nad ulepszeniem sposobu łączenia modułów, aby konstrukcja wytrzymała większe obciążenia; połączenia magnetyczne, które są praktyczne do szybkiego montażu, planują zastąpić bardziej solidnymi łącznikami mechanicznymi.
Zrównoważony rozwój, lokalna produkcja i potencjał dla przemysłu
Jednym z kluczowych motywów stojących za tymi badaniami jest kwestia zrównoważonego rozwoju. Dzisiejsze meble są głównie produkowane w scentralizowanych fabrykach, a następnie transportowane na duże odległości. Każda zmiana projektu oznacza nową serię produkcyjną, nowe narzędzia i dodatkowe koszty logistyczne. Systemy, które łączą generatywną SI, modułowe komponenty i montaż robotyczny, oferują radykalnie inny scenariusz: projektowanie i produkcja mogą odbywać się lokalnie, niemal na żądanie.
Zamiast zamawiania gotowego produktu, użytkownik w przyszłości mógłby zamówić „przepisy” na obiekty – parametryczne opisy i zestaw reguł, które następnie uruchamiają lokalny system robotyczny. Jeden zestaw standaryzowanych modułów mógłby być wielokrotnie wykorzystywany do zupełnie różnych konfiguracji mebli, wystaw, tymczasowych struktur budowlanych czy eksperymentów laboratoryjnych. Kiedy potrzeby się zmienią, obiekty są rozkładane, a materiał wraca do cyklu.
Dla przemysłu, szczególnie dla obszarów takich jak lotnictwo czy zaawansowana architektura, takie systemy oznaczają możliwość szybkiego fizycznego prototypowania złożonych geometrii, które trudno składać ręcznie. Badacze podkreślają, że to samo środowisko obliczeniowe można połączyć z wieloma zrobotyzowanymi gniazdami, czym otwiera się drogę do skalowania od biurkowego ramienia robota do całych fabryk, w których granica między studiem projektowym a halą produkcyjną jest coraz mniej widoczna.
Techniczne granice i otwarte pytania badawcze
Chociaż wyniki sprawiają imponujące wrażenie, system wciąż ma wyraźne ograniczenia. Modele generatywne czasami produkują geometrie, które są bardzo rzeźbiarskie, ale trudne do przełożenia na strukturę modułową bez kompromisów. Model wizyjno-językowy nie rozumie fizyki na poziomie inżyniera; jego „intuicja” o tym, co jest stabilne, a co nie, wynika ze statystyki danych, a nie ze ścisłych obliczeń mechanicznych.
Dlatego badacze sprawdzają, jak włączyć w proces dodatkowe symulacje i weryfikacje: od wykrywania potencjalnie niestabilnych połączeń i zbyt dużych rozpiętości bez podparcia, do optymalizacji liczby używanych komponentów, aby zmniejszyć masę i czas montażu. Długofalowo celem jest, by system SI nie tylko formalnie spełnił opis użytkownika, ale też ilościowo zoptymalizował wytrzymałość, trwałość i zużycie materiału.
Jeszcze jedno otwarte pytanie dotyczy różnorodności komponentów. Praca nad sterowanym tekstem montażem robotycznym skupia się na dwóch rodzajach części, podczas gdy „speech-to-reality” używa jednolitych modułów wokselowych. W praktyce wiele obiektów będzie wymagać innych elementów: zawiasów, prowadnic, kółek, sprężyn czy elastycznych połączeń. Włączenie takich komponentów oznacza też bardziej złożone planowanie montażu, ale otwiera drogę do w pełni funkcjonalnych przedmiotów, takich jak szafki z drzwiczkami, mechanizmy regulacji wysokości czy nawet prostsze roboty, które zaprojektowałaby inna SI.
Demokratyzacja designu: co oznacza „powiedz i powstanie”
W tle tych eksperymentów kryje się też szersza wizja społeczna. Jeśli ktokolwiek może słowami opisać to, czego potrzebuje, i zobaczyć, jak to w kilka minut powstaje w świecie fizycznym, wtedy granica między użytkownikiem a projektantem dramatycznie się zaciera. Tak jak wcześniejsze fale cyfryzacji umożliwiły każdemu bycie wydawcą, muzykiem czy fotografem, generatywna SI w połączeniu z robotyką mogłaby rozszerzyć tę zasadę na świat przedmiotów.
Dla edukacji oznacza to nowe sposoby uczenia się: uczniowie mogliby eksperymentować z konstrukcjami i kształtami bez strachu, że popełnią błąd przy cięciu materiału czy używaniu narzędzi. Dla architektów i projektantów przemysłowych chodzi o możliwość testowania pomysłów na wnętrza, prototypy czy instalacje wystawowe w pełnej skali praktycznie w czasie rzeczywistym. Dla użytkowników końcowych scenariusz, w którym w salonie masz kompaktowy system robotyczny, który układa i rozkłada meble według bieżących potrzeb, nie wygląda już tak odlegle.
Badacze jednak podkreślają, że to dopiero pierwszy krok. Systemy opisane w pracach są wciąż prototypami laboratoryjnymi, z ograniczonym zestawem modułów, kontrolowanym środowiskiem i starannie zdefiniowanymi zadaniami. Ale kierunek rozwoju jest jasny: poprzez łączenie zaawansowanych modeli SI, które rozumieją geometrię i funkcję, z fizycznymi robotami, które mogą niezawodnie operować standaryzowanymi komponentami, powstaje nowy rodzaj „mówionego” lub „tekstowego” zakładu produkcyjnego.
Od wczesnych systemów CAD w latach siedemdziesiątych do współczesnych sieci generatywnych i modeli wizyjno-językowych rozciągają się dekady ewolucji narzędzi do tworzenia przedmiotów. Najnowsze eksperymenty MIT sugerują kolejny skok: przyszłość, w której „Robot, zrób mi krzesło” będzie równie powszechnym zdaniem co „wyślij mi e-maila”, a procesy produkcyjne równie elastyczne i szybkie jak dzisiejszy rozwój oprogramowania.
Czas utworzenia: 3 godzin temu