Nvidia hat DreamDojo vorgestellt: ein offenes Weltmodell, das aus Steuerbefehlen visuelle Folgen für Roboter berechnet.
In Kürze
- Vorhersage von Bild‑Frames statt traditioneller Physik‑Engines
- Vortrainiert mit 44.000 Stunden Ego‑Videos, nutzt latente Aktionen
- Offene Gewichte, ~10 FPS, VR‑Fernsteuerung und Feinabstimmung für Zielroboter
Nvidia hat mit DreamDojo ein offenes Weltmodell für die Robotik vorgestellt — ein System, das aus Steuerbefehlen vorhersagt, wie die Umgebung in Bildern aussehen wird. Jim Fan, Director of AI bei Nvidia, bezeichnet das Projekt auf LinkedIn als „Simulation 2.0“.
Was ein Weltmodell hier bedeutet
Stell dir ein neuronales Modell vor, das statt auf klassische 3D‑Engines oder manuell programmierte Physik zu setzen, direkt visuelle Folgen simuliert: Du gibst eine Aktion vor, und das System berechnet die nächsten Bild‑Frames, als ob ein Roboter die Handlung ausführen würde. Solche Vorhersagen erlauben, Handlungsfolgen zu testen, ohne echte Hardware zu beanspruchen.
Warum das relevant ist
Echtes Robotertraining ist oft langsam, teuer und mit Risiken verbunden — Verschleiß, Sicherheitsfragen, ständiges Zurücksetzen. DreamDojo bietet eine Alternative: Trainingsläufe finden in der Simulation statt, wodurch viele Iterationen möglich werden, ohne physischen Schaden oder aufwändige Laborbedingungen.
Wie DreamDojo arbeitet
- Vortraining: Das Modell wurde mit rund 44.000 Stunden an Ego‑Perspektive‑Videos trainiert. Ego‑Perspektive heißt: First‑Person‑Aufnahmen aus der Sicht der handelnden Person.
- Latente Aktionen: Bewegungen von Menschen werden in eine hardwareunabhängige Repräsentation übersetzt — sogenannte „latente Aktionen“. Diese interne Beschreibung menschlicher Bewegungen erlaubt dem Modell, aus menschlichem Verhalten zu lernen, bevor es je einen Roboter gesehen hat.
- Feinabstimmung: Anschließend wird das vortrainierte Modell auf die spezifische Mechanik eines Zielroboters angepasst, damit die Simulation realistische Aktuator‑ und Kinematik‑Eigenschaften berücksichtigt.
Funktionen und Einsatzmöglichkeiten
DreamDojo erzeugt in Echtzeit simulierte Bildfolgen mit etwa 10 Bildern pro Sekunde. Das System erlaubt VR‑Fernsteuerung innerhalb der Simulation, die Bewertung von Roboterstrategien und vorausschauende Planung direkt im Weltmodell. So kannst du verschiedene Taktiken durchspielen und bewerten, ohne einen physischen Roboter zu riskieren.
Zugänglichkeit und technische Basis
Nvidia gibt an, dass Gewichte, Code und Daten offen verfügbar sind; weitere Details stehen auf der Projektseite und im zugehörigen Paper. Technisch baut DreamDojo auf Nvidia Cosmos auf. Quelle der Ankündigung ist Jim Fan via LinkedIn.
Quellen
- Quelle: NVIDIA
- Der ursprüngliche Artikel wurde hier veröffentlicht
- Dieser Artikel wurde im Podcast KI-Briefing-Daily behandelt. Die Folge kannst du hier anhören.




