S'adosser dans un fauteuil et prononcer une phrase simple comme : « Fabrique-moi une chaise », puis regarder un bras robotique assembler un objet physique devant vous en quelques minutes – il y a peu, cela ressemblait à une scène de science-fiction. En décembre 2025, c'est une réalité dans les laboratoires du Massachusetts Institute of Technology (MIT), où des chercheurs combinent l'intelligence artificielle générative, les systèmes de vision par ordinateur et l'assemblage robotique en un processus de conception et de fabrication unique et entièrement automatisé.
Au lieu de la conception assistée par ordinateur (CAO) classique, qui nécessite des compétences d'expert, des heures de modélisation et une connaissance détaillée des logiciels, le nouveau système basé sur l'intelligence artificielle permet de décrire un objet complexe à plusieurs composants en langage ordinaire. Les modèles d'intelligence artificielle générative créent une représentation tridimensionnelle de l'objet souhaité à partir du texte, puis un modèle vision-langage (VLM) décompose cette géométrie en pièces physiques standardisées que le robot peut immédiatement commencer à assembler.
Il s'agit d'un travail de recherche qui montre comment le fossé entre la conception numérique et la production physique peut être considérablement réduit. La même équipe est allée encore plus loin ces derniers mois : sur la base des mêmes principes, un système « speech-to-reality » a été développé, qui ne nécessite même plus de taper du texte – il suffit de prononcer la commande, et des meubles modulaires et autres objets sont créés en quelques minutes seulement.
Pourquoi la CAO classique est devenue un goulot d'étranglement de la conception
Les outils de conception assistée par ordinateur restent la norme dans l'industrie, de l'automobile et de l'aérospatiale à la construction et à l'électronique grand public. Mais ces mêmes outils, qui sont puissants et précis, représentent en même temps une barrière pour quiconque ne possède pas de connaissances spécialisées. La courbe d'apprentissage est raide, les interfaces sont complexes, et le contrôle détaillé sur chaque vis ou surface est souvent excessif dans les premières phases d'un projet, lorsque le plus important pour l'utilisateur est d'essayer rapidement plusieurs idées et de les voir dans l'espace physique.
L'IA générative a montré ces dernières années qu'elle pouvait créer des images, des modèles 3D et des scènes virtuelles entières à partir d'un court texte. Mais la plupart de ces objets numériques restent piégés dans le monde virtuel. La géométrie créée par les modèles est souvent irrégulière, n'a pas de structure de composants claire et ne prend pas en compte les contraintes de la production physique. En d'autres termes, ce qui semble bon à l'écran ne signifie pas nécessairement que cela peut être assemblé facilement, rapidement et à moindre coût dans la réalité.
L'approche du MIT établit justement ici une nouvelle norme : l'objectif n'est pas seulement de générer un beau modèle numérique, mais de l'amener sous une forme adaptée à l'assemblage automatique à partir d'éléments préfabriqués. Ainsi, l'IA générative cesse d'être un outil d'inspiration et devient une partie d'une véritable ligne de production.
Du texte au modèle 3D : comment le système « comprend » la géométrie et la fonction
Le travail part d'une interaction simple : l'utilisateur tape une demande dans une interface textuelle – par exemple « fabrique-moi une chaise » ou « j'ai besoin d'une étagère à trois niveaux ». Un modèle 3D génératif crée une représentation maillée de l'objet sur la base de cette description, connue sous le nom de mesh. Ce maillage décrit la surface et le volume du futur objet, mais ne dit encore rien sur les pièces physiques dont il sera constitué et comment elles seront assemblées.
À l'étape suivante, le rôle est repris par un modèle vision-langage, un type de système d'IA générative entraîné sur une grande quantité d'images, de descriptions textuelles et de tâches de compréhension de scène. Sa tâche est de « regarder » le modèle tridimensionnel et de déduire quelles sont les unités fonctionnelles de l'objet : où se trouve le siège, où est le dossier, où sont les pieds, quelles sont les surfaces sur lesquelles le corps humain s'appuiera, et quels sont les éléments qui supportent principalement la charge structurelle.
Les chercheurs travaillent avec deux groupes fondamentaux de composants préfabriqués : des éléments structurels qui forment le squelette de l'objet et des éléments en plaque (panneaux) qui forment des surfaces planes comme les sièges ou les étagères. Le modèle vision-langage doit décider, sur la base de la géométrie et de la fonction, où quel type de composant est utilisé. Ainsi, par exemple, il reconnaît que le siège et le dossier d'une chaise nécessitent des panneaux, tandis que les pieds et les traverses restent réalisés en segments structurels.
Ce qui rend cette approche particulièrement intéressante est le fait que le modèle ne repose pas sur des règles programmées manuellement pour une chaise, une étagère ou une table. Au lieu de cela, il utilise les connaissances acquises lors de l'apprentissage sur de nombreuses images et descriptions d'objets pour généraliser à de nouvelles formes générées par l'IA. Pour cette raison, le même système, sans entraînement supplémentaire, peut travailler avec différents types de meubles et d'autres objets fonctionnels.
Attribution des composants et préparation à l'assemblage robotique
Une fois que le modèle vision-langage a construit une compréhension de la fonction, le système passe au niveau pratique : pour chaque surface sur le maillage 3D, il attribue des étiquettes qui définissent si un élément de panneau doit y être installé ou non. Les surfaces sont numérotées, et les attributions de composants sont renvoyées dans le modèle pour s'aligner davantage avec la géométrie et les contraintes physiques d'assemblage.
Le résultat est un modèle structuré dans lequel chaque partie de l'objet est liée à l'un des types de préfabriqués prédéfinis. C'est l'étape cruciale qui permet de traduire la conception numérique en un ensemble concret d'instructions pour le bras robotique : combien d'éléments sont nécessaires, où ils sont placés, dans quel ordre ils sont assemblés et comment les collisions sont évitées pendant le montage.
Le système robotique reprend ensuite le plan préparé et commence à assembler l'objet sur la surface de travail. Comme toutes les pièces sont standardisées et réutilisables, le processus est rapide et très propre : pas de copeaux, pas de temps d'attente pour que la colle sèche, pas de déchets finissant à la poubelle. Lorsque l'utilisateur n'a plus besoin de ce meuble, il peut être démonté et quelque chose de complètement nouveau peut être assemblé à partir des mêmes pièces.
Co-création humain-robot : l'utilisateur reste dans la boucle
Bien que le système automatise une grande partie du processus, les chercheurs ont souligné l'importance que l'humain reste un partenaire créatif. Après la proposition de conception initiale, l'utilisateur peut donner des instructions supplémentaires en langage naturel : par exemple demander que les panneaux soient uniquement sur le dossier et non sur le siège, que la chaise soit plus basse ou plus haute, que l'étagère ait plus de niveaux ou que l'accent soit mis sur la légèreté visuelle plutôt que sur une surface pleine.
Chaque modification de ce type réactive le modèle génératif et le module vision-langage, qui harmonisent la nouvelle description avec le modèle 3D existant et la structure des composants. De cette manière, un cycle créatif itératif est créé : le système propose des solutions, l'utilisateur les oriente et les corrige, et le robot les transforme en prototypes physiques. Au lieu de s'occuper de coordonnées et de paramètres précis, l'humain pense à la fonction, à l'esthétique et aux scénarios d'utilisation.
Une telle approche « human-in-the-loop » a également une dimension psychologique importante. Les participants aux études utilisateurs ont souvent souligné un sentiment de co-création sur les objets qui ont été formellement assemblés par un bras robotique : ils percevaient le résultat final comme « leur » chaise ou étagère précisément parce qu'ils l'avaient façonnée par la conversation avec le système, et non par des clics sur une interface CAO complexe.
Résultats des tests utilisateurs : préférence pour la conception par IA
Pour évaluer quantitativement la valeur de leur approche, les chercheurs ont mené une étude dans laquelle les participants évaluaient différentes versions des mêmes objets. Un groupe de conceptions a été créé à l'aide de leur système propulsé par l'IA avec modèle vision-langage, un autre a été généré par un algorithme qui place mécaniquement des panneaux sur toutes les surfaces horizontales tournées vers le haut, tandis que le troisième était le résultat d'une disposition aléatoire de panneaux.
Plus de quatre-vingt-dix pour cent des participants ont préféré les objets créés par le système combinant IA générative et VLM par rapport aux approches alternatives. Ils ont particulièrement souligné la disposition logique des surfaces pour s'asseoir ou ranger, le sentiment de stabilité structurelle et l'harmonie visuelle de l'ensemble. La disposition aléatoire des panneaux a été perçue comme chaotique, et la règle purement géométrique « couvrir toutes les surfaces horizontales avec des panneaux » s'est avérée trop grossière pour satisfaire les besoins réels des utilisateurs.
Le processus d'assemblage s'est également révélé efficace en termes de temps. Grâce aux modules structurels et aux panneaux standardisés, le robot a pu assembler en peu de temps toute une gamme de configurations différentes – des chaises simples et tabourets, en passant par les étagères, jusqu'aux meubles plus complexes qui, dans la production classique, nécessiteraient la fabrication d'outils spéciaux ou de moules.
Du texte à la parole : le « speech-to-reality » comme prochaine étape logique
Sur la base des expériences acquises en travaillant avec des descriptions textuelles, l'équipe a étendu le concept à la parole. Le nouveau système « speech-to-reality » élimine même la dernière barrière technologique pour les utilisateurs inexpérimentés : il n'est plus nécessaire d'imaginer de courtes instructions écrites, il suffit de dire dans la pièce que vous voulez une chaise simple, une bibliothèque ou une petite table d'appoint.
Le signal vocal passe d'abord par un traitement standard et est converti en texte, après quoi la même infrastructure d'IA générative prend le relais : le modèle génère une forme 3D, le système la décompose en composants modulaires, et le planificateur détermine l'ordre et la méthode d'assemblage optimaux. Le résultat est étroitement lié au travail antérieur sur le texte, mais l'expérience utilisateur est encore plus naturelle – la communication avec le robot ressemble de plus en plus à une conversation avec un menuisier ou un designer humain.
Au lieu de deux types de préfabriqués, le « speech-to-reality » s'appuie dans sa première mise en œuvre sur un réseau de modules cubiques identiques que le robot empile en une structure en treillis. Une telle approche voxélisée facilite la discrétisation de la géométrie complexe : qu'il s'agisse d'une chaise, d'une étagère, d'une petite table ou d'un chien décoratif, l'objet peut être décomposé en une combinaison de cubes que le robot saisit, positionne et assemble facilement.
Les expériences en laboratoire ont montré que le système peut fabriquer en quelques minutes seulement des meubles simples qui sont suffisamment solides pour une utilisation quotidienne dans des conditions de prototype. Les chercheurs travaillent en parallèle à l'amélioration de la méthode d'assemblage des modules afin que la construction résiste à des charges plus importantes ; ils prévoient de remplacer les connexions magnétiques, qui sont pratiques pour un assemblage rapide, par des joints mécaniques plus robustes.
Durabilité, production locale et potentiel pour l'industrie
L'un des motifs clés derrière ces recherches est la question de la durabilité. Les meubles d'aujourd'hui sont principalement produits dans des usines centralisées puis transportés sur de longues distances. Chaque changement de conception signifie une nouvelle série de production, de nouveaux outils et des coûts logistiques supplémentaires. Les systèmes combinant IA générative, composants modulaires et assemblage robotique offrent un scénario radicalement différent : la conception et la production peuvent se dérouler localement, presque à la demande.
Au lieu de commander un produit fini, l'utilisateur pourrait à l'avenir commander des « recettes » pour des objets – des descriptions paramétriques et un ensemble de règles qui déclenchent ensuite un système robotique local. Un jeu de modules standardisés pourrait être réutilisé pour des configurations totalement différentes de meubles, de présentoirs d'exposition, de structures de construction temporaires ou d'expériences de laboratoire. Lorsque les besoins changent, les objets sont démontés et le matériau retourne dans le cycle.
Pour l'industrie, en particulier pour des domaines comme l'aérospatiale ou l'architecture avancée, de tels systèmes signifient la possibilité d'un prototypage physique rapide de géométries complexes qu'il est difficile d'assembler manuellement. Les chercheurs soulignent que le même environnement informatique peut être connecté à plusieurs cellules robotisées, ouvrant ainsi la voie à une mise à l'échelle du bras robotique de bureau à des usines entières où la frontière entre le studio de design et le hall de production est de moins en moins visible.
Limites techniques et questions de recherche ouvertes
Bien que les résultats semblent impressionnants, le système a encore des limites claires. Les modèles génératifs produisent parfois des géométries qui sont très sculpturales, mais difficiles à traduire en une structure modulaire sans compromis. Le modèle vision-langage ne comprend pas la physique au niveau d'un ingénieur ; son « intuition » sur ce qui est stable et ce qui ne l'est pas découle des statistiques des données, et non de calculs mécaniques solides.
C'est pourquoi les chercheurs explorent comment inclure des simulations et des vérifications supplémentaires dans le processus : de la détection de joints potentiellement instables et de portées excessives sans support, à l'optimisation du nombre de composants utilisés pour réduire la masse et le temps d'assemblage. À long terme, l'objectif est que le système d'IA non seulement satisfasse formellement la description de l'utilisateur, mais optimise également quantitativement la solidité, la durabilité et la consommation de matériaux.
Une autre question ouverte concerne la diversité des composants. Le travail sur l'assemblage robotique guidé par texte se concentre sur deux types de pièces, tandis que le « speech-to-reality » utilise des modules voxels uniformes. En pratique, de nombreux objets nécessiteront d'autres éléments : charnières, guides coulissants, roues, ressorts ou joints flexibles. L'inclusion de tels composants signifie également une planification d'assemblage plus complexe, mais ouvre la voie à des objets entièrement fonctionnels comme des armoires avec portes, des mécanismes de réglage de hauteur ou même des robots plus simples qui seraient conçus par une autre IA.
Démocratisation du design : ce que signifie « dis-le et cela apparaîtra »
En toile de fond de ces expériences se cache également une vision sociale plus large. Si n'importe qui peut décrire avec des mots ce dont il a besoin et voir comment cela naît dans le monde physique en quelques minutes, alors la frontière entre l'utilisateur et le designer s'estompe considérablement. Tout comme les vagues précédentes de numérisation ont permis à chacun d'être éditeur, musicien ou photographe, l'IA générative combinée à la robotique pourrait étendre ce principe au monde des objets.
Pour l'éducation, cela signifie de nouvelles façons d'apprendre : les élèves pourraient expérimenter avec des constructions et des formes sans craindre de faire des erreurs lors de la coupe du matériau ou de l'utilisation d'outils. Pour les architectes et les designers industriels, il s'agit de la possibilité de tester des idées pour des intérieurs, des prototypes ou des installations d'exposition à pleine échelle pratiquement en temps réel. Pour les utilisateurs finaux, un scénario dans lequel vous avez un système robotique compact dans le salon qui assemble et démonte des meubles selon les besoins actuels ne semble plus si lointain.
Les chercheurs soulignent toutefois que ce n'est que la première étape. Les systèmes décrits dans les travaux sont encore des prototypes de laboratoire, avec un ensemble limité de modules, un environnement contrôlé et des tâches soigneusement définies. Mais la direction du développement est claire : en combinant des modèles d'IA avancés qui comprennent la géométrie et la fonction avec des robots physiques capables de manipuler de manière fiable des composants standardisés, un nouveau type d'usine de fabrication « vocale » ou « textuelle » émerge.
Des premiers systèmes CAO dans les années soixante-dix aux réseaux génératifs contemporains et aux modèles vision-langage s'étendent des décennies d'évolution des outils de création d'objets. Les dernières expériences du MIT suggèrent le prochain saut : un avenir où « Robot, fabrique-moi une chaise » sera une phrase aussi courante que « envoie-moi un e-mail », et les processus de fabrication aussi adaptables et rapides que le développement logiciel d'aujourd'hui.
Trouvez un hébergement à proximité
Heure de création: 3 heures avant