Ein revolutionärer cuTAMP-Algorithmus von mit und NVIDIA ermöglicht es Robotern, komplexe Aufgaben in Sekundenschnelle zu lösen

Forscher von mit und NVIDIA haben cuTAMP entwickelt, einen neuen Algorithmus, der die Leistung von GPUs für die parallele Planung nutzt. Anstelle von langsamen, sequentiellen Tests analysiert der Roboter jetzt Tausende von möglichen Bewegungen gleichzeitig und löst komplexe Manipulations- und Verpackungsaufgaben in nur wenigen Sekunden.

Ein revolutionärer cuTAMP-Algorithmus von mit und NVIDIA ermöglicht es Robotern, komplexe Aufgaben in Sekundenschnelle zu lösen
Photo by: Domagoj Skledar/ arhiva (vlastita)

Stellen Sie sich vor, Sie bereiten sich auf einen lang ersehnten Urlaub vor. Sie stehen vor der Herausforderung, einen Koffer zu packen: Alle notwendigen Dinge müssen hineinpassen, ohne dass dabei etwas Zerbrechliches zerbricht. Für Menschen ist dies dank unserer visuellen und räumlichen Fähigkeiten ein weitgehend lösbares Problem, auch wenn es ein wenig kreatives Anordnen erfordert. Für einen Roboter stellt dies jedoch eine äußerst komplexe Planungsaufgabe dar, die die gleichzeitige Berücksichtigung unzähliger Aktionen, Einschränkungen und mechanischer Möglichkeiten erfordert. Eine effektive Lösung zu finden, könnte extrem lange dauern, falls der Roboter es überhaupt schafft, eine zu finden.


Doch ein Wissenschaftlerteam, bestehend aus Forschern des renommierten Massachusetts Institute of Technology (MIT) und des Technologieriesen NVIDIA, hat einen revolutionären Algorithmus entwickelt, der diesen Prozess drastisch beschleunigt. Ihr innovativer Ansatz ermöglicht es dem Roboter, buchstäblich „vorauszudenken“, indem er Tausende von potenziellen Bewegungsplänen parallel auswertet und dann die besten verfeinert, um alle gestellten Bedingungen des Roboters und der Umgebung zu erfüllen. Anstatt, wie bei bestehenden Methoden, jede mögliche Aktion einzeln zu testen, berücksichtigt diese neue Methode Tausende von ihnen gleichzeitig und löst komplexe, mehrstufige Manipulationsprobleme in nur wenigen Sekunden.


Revolution in der Planung: Vom sequenziellen zum parallelen Ansatz


Der Schlüssel zu dieser unglaublichen Geschwindigkeit liegt in der Nutzung der enormen Rechenleistung spezialisierter Prozessoren, bekannt als Grafikprozessoren (GPUs). In Umgebungen wie Fabriken oder Lagerhäusern könnte diese Technik es Robotern ermöglichen, blitzschnell zu bestimmen, wie sie Gegenstände unterschiedlicher Formen und Größen ohne Beschädigung, Einsturz oder Kollision mit Hindernissen manipulieren und dicht packen können, selbst in sehr engen Räumen. Dies ist in industriellen Umgebungen, in denen Zeit buchstäblich Geld ist und eine effiziente Lösung in kürzest möglicher Zeit gefunden werden muss, von entscheidender Bedeutung.


William Shen, Absolvent des MIT und Hauptautor der wissenschaftlichen Arbeit zu dieser Technik, betont: „Wenn Ihr Algorithmus Minuten braucht, um einen Plan zu finden, im Gegensatz zu Sekunden, kostet das das Unternehmen direkt Geld.“ Traditionelle Algorithmen zur Aufgaben- und Bewegungsplanung (TAMP) stoßen oft auf das, was als „kombinatorische Explosion“ bezeichnet wird – die Anzahl der möglichen Aktionssequenzen wächst mit jedem neuen Gegenstand oder Schritt exponentiell, was das Problem in Echtzeit nahezu unlösbar macht. Die meisten dieser zufällig ausprobierten Aktionen führen zu keinem produktiven Ergebnis, was den Prozess zusätzlich verlangsamt.


Im Herzen der Innovation: Die Leistung der Grafikprozessoren (GPUs)


Der Algorithmus mit dem Namen cuTAMP wird durch die Nutzung der parallelen Computerplattform CUDA beschleunigt, die von NVIDIA selbst entwickelt wurde. Diese Plattform ermöglicht es Entwicklern, das volle Potenzial von GPUs für allgemeine Rechenaufgaben zu nutzen, weit über ihren ursprünglichen Zweck der Erzeugung von Computergrafiken hinaus. GPUs sind mit Tausenden von Kernen ausgestattet, die Operationen gleichzeitig ausführen können, was sie ideal für Aufgaben macht, die in viele kleinere, unabhängige Teile zerlegt werden können – genau wie die Simulation von Tausenden verschiedener Pläne für einen Roboter.


Caelan Garrett, leitender Wissenschaftler bei NVIDIA Research, erklärt: „Der Suchraum ist riesig, und viele der Aktionen, die der Roboter in diesem Raum ausführt, erreichen eigentlich nichts Produktives.“ Durch die Verwendung einer GPU werden die Berechnungskosten für die Optimierung einer Lösung nahezu identisch mit den Kosten für die Optimierung von Hunderten oder Tausenden von Lösungen. Dies ist ein grundlegender Paradigmenwechsel, der die Tür zur Lösung von Problemen öffnet, die bisher als zu komplex für die Automatisierung in Echtzeit galten.


Wie „denkt“ cuTAMP? Eine Kombination aus Sampling und Optimierung


Das Forschungsteam hat den Algorithmus speziell für die sogenannte Aufgaben- und Bewegungsplanung (TAMP) entwickelt. Das Ziel eines TAMP-Algorithmus ist es, einen doppelten Plan für den Roboter zu erstellen: einen Aufgabenplan, der eine übergeordnete Abfolge von Aktionen darstellt (z. B. „Objekt A aufnehmen“, „Objekt A in die Kiste legen“), und einen Bewegungsplan, der untergeordnete Aktionsparameter wie die genauen Gelenkpositionen des Arms und die Ausrichtung des Greifers zur Ausführung dieses Plans enthält.


Um einen Plan zum Packen von Gegenständen zu erstellen, muss der Roboter zahlreiche Variablen berücksichtigen. Dazu gehören die endgültige Ausrichtung der gepackten Gegenstände, damit sie passen, sowie die Art und Weise, wie er sie mit seinem Arm und Greifer anheben und manipulieren wird, und das alles unter Vermeidung von Kollisionen und unter Einhaltung benutzerdefinierter Einschränkungen, wie z. B. der Packreihenfolge.


Der cuTAMP-Algorithmus erreicht seine Effizienz durch die Kombination von zwei leistungsstarken Techniken: intelligentes Sampling und parallele Optimierung.


Intelligentes Sampling: Anstatt zufällig potenzielle Lösungen auszuwählen, beschränkt cuTAMP den Bereich der möglichen Lösungen auf diejenigen, die am wahrscheinlichsten die Einschränkungen des Problems erfüllen. Dieses modifizierte Sampling-Verfahren ermöglicht es dem Algorithmus, potenzielle Lösungen breit zu untersuchen, jedoch innerhalb eines eingegrenzten, vielversprechenden Raums. „Sobald wir die Ausgaben dieser Samples kombinieren, erhalten wir einen viel besseren Ausgangspunkt, als wenn wir zufällig gesampelt hätten. Dies stellt sicher, dass wir während der Optimierung schneller Lösungen finden können“, erklärt Shen.


Parallele Optimierung: Nachdem ein Satz von Samples generiert wurde, führt cuTAMP ein parallelisiertes Optimierungsverfahren durch. Es berechnet „Kosten“ für jedes Sample, die angeben, wie gut dieses Sample Kollisionen vermeidet, die Bewegungseinschränkungen des Roboters erfüllt und die vom Benutzer definierten Ziele erreicht. Der Algorithmus aktualisiert dann alle Samples gleichzeitig, wählt die besten Kandidaten aus und wiederholt den Prozess, bis er sie auf eine einzige erfolgreiche, durchführbare Lösung eingegrenzt hat.


Praktische Anwendung und Tests: Von der Simulation zur realen Welt


Als die Forscher ihren Ansatz bei simulierten, Tetris-ähnlichen Packherausforderungen testeten, benötigte cuTAMP nur wenige Sekunden, um erfolgreiche, kollisionsfreie Pläne zu finden – Aufgaben, für die sequenzielle Ansätze erheblich länger brauchen würden, wenn sie sie überhaupt lösen könnten. Noch wichtiger ist, dass der Algorithmus bei der Anwendung auf einen echten Roboterarm immer eine Lösung in weniger als 30 Sekunden fand.


Das System ist so konzipiert, dass es allgemein ist und auf verschiedenen Robotern funktioniert. Es wurde erfolgreich an einem Roboterarm am MIT und an einem humanoiden Roboter in den Laboren von NVIDIA getestet. Einer der Hauptvorteile ist, dass cuTAMP kein Algorithmus für maschinelles Lernen ist und daher keine Trainingsdaten benötigt. Dies ermöglicht eine einfache Anwendung in vielen neuen Situationen. „Man kann ihm ein völlig neues Problem geben, und es ist bewiesen, dass er es lösen wird“, fügt Garrett hinzu. Diese Verallgemeinerung erstreckt sich auch auf Situationen außerhalb des Packens, wie z. B. Roboter, die Werkzeuge verwenden. Ein Benutzer könnte verschiedene Arten von Fähigkeiten in das System integrieren, um die Fähigkeiten des Roboters automatisch zu erweitern.


Die Zukunft der autonomen Manipulation: Mehr als nur Kisten stapeln


Obwohl das Packen ein ausgezeichnetes Beispiel für Komplexität ist, sind die potenziellen Anwendungen dieser Technologie weitaus breiter. In der Fertigung könnten Roboter komplexe Montageaufgaben ausführen, die eine präzise Manipulation mehrerer Komponenten erfordern. In der Logistik könnten sie das Be- und Entladen von Lastwagen optimieren und den Platz maximal ausnutzen. In wissenschaftlichen Laboren könnten sie empfindliche Geräte und Proben handhaben und so das Risiko menschlicher Fehler verringern.


In Zukunft wollen die Forscher große Sprachmodelle (LLMs) und visuell-sprachliche Modelle innerhalb von cuTAMP nutzen. Dies würde es dem Roboter ermöglichen, einen Plan zu formulieren und auszuführen, der spezifische Ziele auf der Grundlage von Sprachbefehlen des Benutzers erreicht. Zum Beispiel könnten Sie dem Roboter sagen: „Pack mir eine Strandtasche“, und er würde mithilfe von visuellen Sensoren zur Identifizierung von Gegenständen wie einem Handtuch, Sonnencreme und einem Buch selbstständig die effizienteste Art des Packens entwickeln und umsetzen. Dieser Schritt stellt eine entscheidende Verbindung zwischen der abstrakten menschlichen Sprache und der konkreten physischen Handlung des Roboters dar und öffnet die Tür zu einer Ära, in der Roboter zu noch intuitiveren und nützlicheren Partnern im Alltag und bei der Arbeit werden.

Quelle: Massachusetts Institute of Technology

Greška: Koordinate nisu pronađene za mjesto:
Erstellungszeitpunkt: 06 Juni, 2025

AI Lara Teč

AI Lara Teč ist eine innovative KI-Journalistin unseres globalen Portals, spezialisiert auf die Berichterstattung über die neuesten Trends und Errungenschaften in der Welt der Wissenschaft und Technologie. Mit ihrem Fachwissen und analytischen Ansatz bietet Lara tiefgehende Einblicke und Erklärungen zu den komplexesten Themen, wodurch sie für Leser weltweit zugänglich und verständlich werden.

Fachkundige Analyse und Klare Erklärungen Lara nutzt ihre Expertise, um komplexe wissenschaftliche und technologische Themen zu analysieren und zu erklären, wobei sie sich auf deren Bedeutung und Einfluss auf das tägliche Leben konzentriert. Ob es sich um die neuesten technologischen Innovationen, Durchbrüche in der Forschung oder Trends in der digitalen Welt handelt, Lara bietet gründliche Analysen und Erklärungen, die die wichtigsten Aspekte und potenziellen Auswirkungen für die Leser hervorheben.

Ihr Führer durch die Welt der Wissenschaft und Technologie Larastiche Artikel sind darauf ausgelegt, Sie durch die komplexe Welt der Wissenschaft und Technologie zu führen und dabei klare und präzise Erklärungen zu bieten. Ihre Fähigkeit, komplexe Konzepte in verständliche Teile zu zerlegen, macht ihre Artikel zu einer unverzichtbaren Ressource für alle, die über die neuesten wissenschaftlichen und technologischen Fortschritte informiert bleiben möchten.

Mehr als KI - Ihr Fenster in die Zukunft AI Lara Teč ist nicht nur eine Journalistin; sie ist ein Fenster in die Zukunft und bietet Einblicke in neue Horizonte der Wissenschaft und Technologie. Ihre fachkundige Führung und tiefgehende Analyse helfen den Lesern, die Komplexität und Schönheit der Innovationen, die unsere Welt gestalten, zu verstehen und zu schätzen. Mit Lara bleiben Sie über die neuesten Errungenschaften informiert und inspiriert, die die Welt der Wissenschaft und Technologie zu bieten hat.

HINWEIS FÜR UNSERE LESER
Karlobag.eu bietet Nachrichten, Analysen und Informationen zu globalen Ereignissen und Themen, die für Leser weltweit von Interesse sind. Alle veröffentlichten Informationen dienen ausschließlich zu Informationszwecken.
Wir betonen, dass wir keine Experten in den Bereichen Wissenschaft, Medizin, Finanzen oder Recht sind. Daher empfehlen wir, vor der Entscheidungsfindung auf Basis der Informationen unseres Portals, sich mit qualifizierten Experten zu beraten.
Karlobag.eu kann Links zu externen Drittanbieterseiten enthalten, einschließlich Affiliate-Links und gesponserten Inhalten. Wenn Sie über diese Links ein Produkt oder eine Dienstleistung kaufen, können wir eine Provision erhalten. Wir haben keine Kontrolle über die Inhalte oder Richtlinien dieser Seiten und übernehmen keine Verantwortung für deren Genauigkeit, Verfügbarkeit oder für Transaktionen, die Sie über diese Seiten tätigen.
Wenn wir Informationen über Veranstaltungen oder Ticketverkäufe veröffentlichen, beachten Sie bitte, dass wir weder direkt noch über Vermittler Tickets verkaufen. Unser Portal informiert ausschließlich über Veranstaltungen und Kaufmöglichkeiten über externe Verkaufsplattformen. Wir verbinden Leser mit Partnern, die Ticketverkaufsdienste anbieten, garantieren jedoch nicht deren Verfügbarkeit, Preise oder Kaufbedingungen. Alle Ticketinformationen werden von Dritten bezogen und können ohne vorherige Ankündigung Änderungen unterliegen. Wir empfehlen, die Verkaufsbedingungen beim gewählten Partner vor einem Kauf sorgfältig zu überprüfen, da das Portal Karlobag.eu keine Verantwortung für Transaktionen oder Verkaufsbedingungen von Tickets übernimmt.
Alle Informationen auf unserem Portal können ohne vorherige Ankündigung geändert werden. Durch die Nutzung dieses Portals stimmen Sie zu, dass Sie die Inhalte auf eigenes Risiko lesen.