Jim Fans Blaupause für Physical AGI
NVIDIA-Robotikforschungsleiter Jim Fan stellte auf der Sequoia AI Ascent 2026 die "Große Parallele" (The Great Parallel) vor: Die Robotik wird den vierstufigen Erfolgspfad großer Sprachmodelle vollständig kopieren — Pretraining, Fine-Tuning, Reinforcement Learning, automatisierte Forschung. Er präsentierte drei zentrale Technologiedurchbrüche: Dream Zero (World Action Model — Roboter "träumen" die Zukunft, bevor sie handeln), EgoScale (menschliche Ego-Perspektiv-Videos statt Teleoperation — Entdeckung des Neural Scaling Law für Roboter-Geschicklichkeit), Dream Dojo (Neuraler Simulator — GPUs statt echter Roboter für RL). Er prognostiziert das Erreichen des Robotik-Endspiels vor 2040, wobei der "Physical Turing Test" — bei dem man nicht mehr unterscheiden kann, ob ein Mensch oder ein Roboter arbeitet — nur noch 2-3 Jahre entfernt ist. Dieser Artikel analysiert aus Ersten Grundsätzen die technische Architektur, Datenstrategie, Geschäftslogik und die Implikationen dieses Vortrags.
Science-Fiction-Filme zeigen uns immer dasselbe Bild: ein humanoider Roboter, der wie der Terminator alles kann. Doch Jim Fan sagt, das ist der völlig falsche Ansatz.
Er rekapitulierte den Erfolgspfad der LLMs und identifizierte vier stufenförmige Funktionssprünge — zwischen jedem Sprung liegen nur sechs Jahre:
Next-Token-Prediction = die "Form" der Sprache lernen — Grammatik, Logik, wie sich Code entfaltet
Die Simulation auf "nützliche Arbeit" ausrichten — aus dem Meer der Möglichkeiten auf den menschlich gewünschten Output konvergieren
Mit Reinforcement Learning über Imitation hinausgehen — das Modell beginnt zu "denken", statt nur nachzuerzählen
Den gesamten Kreislauf beschleunigen, über menschliche Möglichkeiten hinaus — KI beginnt, selbst KI-Forschung zu betreiben
Jim Fans zentrale Erkenntnis: Diese vier Stufen lassen sich vollständig auf die Robotik übertragen. Er nennt das "The Great Parallel" (Die Große Parallele).
Die Große Parallele: Wenn LLMs durch die Vorhersage des "nächsten Wortes" Sprache gelernt haben, können Roboter durch die Vorhersage des "nächsten physischen Weltzustands" Bewegung lernen. Die mathematische Grundstruktur ist identisch — beides sind Sequenzvorhersageprobleme. Der Unterschied: LLMs sagen diskrete Tokens vorher, Roboter sagen kontinuierliche Pixel und Gelenkwinkel vorher.
| LLM-Pfad | Roboter-Parallelpfad | Kerntechnologie |
|---|---|---|
| Pretraining (nächstes Wort vorhersagen) | Pretraining (nächsten physischen Zustand vorhersagen) | World Model / Cosmos |
| Supervised Fine-Tuning (nützlichen Output ausrichten) | Action Fine-Tuning (auf echte Roboter ausrichten) | GR00T / Dream Zero |
| RL Reasoning (über Imitation hinaus) | RL im Simulator trainieren | Newton / Dream Dojo |
| Automatisierte Forschung | Physische automatisierte Forschung | Roboter entwerfen und bauen die nächste Generation selbst |
"So as any self-respecting scientist would do, I copy homework and I give it a new name. I call it the Great Parallel."
Das ist keine Metapher. Das ist eine umsetzbare Engineering-Roadmap. Jim Fan sagt nicht "Roboter werden irgendwann wie ChatGPT sein" — er sagt "Wir gehen bereits denselben Weg und wissen, wo jede Kurve liegt".
Warum kein Superroboter? Weil der Erfolg der LLMs nie von einem einzigen Supermodell kam, das allein Durchbrüche erzielte, sondern von massiv parallelisiertem Training — Milliarden Parameter, Billionen Tokens, Tausende GPUs. Bei Robotern ist es genauso: Die Zukunft ist nicht ein allkönnender Roboter, sondern Millionen Roboter, die gleichzeitig in simulierten Umgebungen lernen und ihre Fähigkeiten dann in die reale Welt übertragen. Quantität schlägt Qualität — das ist die wahre Bedeutung der "Großen Parallele".
Damit die Große Parallele funktioniert, braucht man drei Kernkomponenten. Jim Fans Team hat alle drei gebaut.
GR00T (Generalist Robot 00 Technology) ist NVIDIAs Foundation Model für humanoide Roboter. In den letzten drei Jahren dominierte die VLA-Architektur (Vision-Language-Action) — im Kern ein Sprachmodell mit einem Action-Output-Kopf.
Jim Fan identifizierte das Problem messerscharf:
"These models are really LVAs, because the most amount of parameters are dedicated to language. Language is first-class citizen, followed by vision and action. By design, VLAs are great at encoding knowledge and nouns, but not so much at physics and verbs."
Er nannte ein klassisches Beispiel: Das Original-VLA-Paper demonstriert "Bewege die Cola-Dose neben das Foto von Taylor Swift" — ja, der Roboter erkannte Taylor Swift, aber das ist "Substantiv-Fähigkeit", nicht "Verb-Fähigkeit". Was man braucht, ist ein Roboter, der Schwerkraft, Reibung und Verformung weicher Objekte versteht — nicht Prominente erkennt.
Der Ersatz für VLA ist eine völlig neue Architektur: das World Action Model (WAM).
Dream Zero ist die erste Implementierung eines WAM. Seine Kernfähigkeit ist "Träumen" — vor der Ausführung einer Handlung simuliert es im Geist die nächsten Sekunden und entscheidet dann basierend auf dem Simulationsergebnis.
"A moment of silence for our dear friend VLAs. They've served us well. Rest in peace. Long live World Action Models."
Wo "träumt" Dream Zero? Es braucht ein Weltmodell als Traumlieferant.
Rechenleistung = Umgebung = Daten. Im traditionellen Robotertraining braucht man echte Roboter (Hardware) in echten Umgebungen (Szenen), die echte Daten sammeln (Teleoperation). Alle drei haben physische Engpässe. Dream Dojos Durchbruch: GPU-Rechenleistung generiert direkt Trainingsumgebungen und -daten. Mehr GPUs kaufen = mehr Roboter, mehr Umgebungen, mehr Daten. Deshalb hat Jensens "Je mehr du kaufst, desto mehr sparst du" in der Robotik erstmals wörtliche Gültigkeit.
Der größte Schmerzpunkt der Robotik waren immer die Daten. Jim Fan zeigte mit einer Grafik die Evolution der Datenstrategien:
| Methode | Obergrenze | Problem |
|---|---|---|
| Teleoperation | 24 Std./Roboter/Tag (effektiv ca. 3 Std.) | Teuer, langsam, Roboter "zicken rum"; NVIDIA-Chefwissenschaftler Bill Dally operierte persönlich — vermutlich "die teuerste Teleoperations-Trajektorie der Geschichte" |
| Daten-Wearables (UMI/DexOoi) | Hunderttausende Stunden | Roboterhände direkt an menschliche Hände montieren und Daten sammeln, ohne Roboterkörper; hat zwei Unicorns hervorgebracht |
| Menschliche Ego-Perspektiv-Videos | Dutzende Millionen Stunden | Wie bei Tesla FSD: Im Hintergrund automatisch sammeln — menschliche Alltagsaktivitäten sind selbst Trainingsdaten |
Jim Fans EgoScale-System ist verblüffend:
Ergebnis: Mit 99,9 % menschlichen Alltagsvideos + 0,1 % Teleoperation lässt sich eine Policy trainieren, die Karten sortiert, Spritzen bedient und Kleidung faltet. Das ist der Schlüssel zur über 10-fachen Trainingskosten-Komprimierung.
EgoScales aufsehenerregendste Entdeckung:
Roboter-Geschicklichkeit folgt einem Neural Scaling Law — Pretraining-Stunden und Validierungsverlust zeigen eine saubere logarithmisch-lineare Beziehung. Das entspricht dem originalen Neural Scaling Law der Sprachmodelle, genau sechs Jahre zeitversetzt. Das bedeutet: Erhöht man kontinuierlich die Pretraining-Stunden menschlicher Videos, verbessert sich die Geschicklichkeit der Roboter vorhersagbar und stetig. Ist das Datenschwungrad einmal angelaufen, wächst es exponentiell.
Jim Fan zeigte einen eleganten Workflow:
Die Bedeutung: Das iPhone wird zum Taschen-Weltscanner. Jeder kann seine Arbeitsumgebung scannen und den Roboter in der Simulation lernen lassen, dort zu arbeiten.
Jim Fan nutzte den Civilization-Technologiebaum als Metapher für das Robotik-Endspiel. Er sagt, seine Forschung sei wie das Freischalten von Spielerfolgen. Drei Erfolge fehlen noch — dann kann er in Rente gehen.
Bei einem breiten Spektrum von Aktivitäten kann man nicht unterscheiden, ob ein Mensch oder ein Roboter die Aufgabe ausführt. Entscheidend ist "Energieeinsatz pro Arbeitseinheit" — nicht mit einem Betrunkenen vergleichen, aber das Effizienzniveau eines normalen Menschen erreichen.
Eine ganze Roboterflotte kann wie Software über APIs und Kommandozeilen konfiguriert werden. Jim Fan scherzte: "Eines Tages von Opus 9.0 gesteuert." Das ermöglicht "Dark Factories" — eine Markdown-Datei als Input, ein vollständig montiertes Produkt als Output, komplett unbemannt; sowie automatisierte Nasslabore zur Beschleunigung chemischer, biologischer und pharmazeutischer Entdeckungen.
Roboter beginnen, die nächste Generation selbst zu entwerfen, zu verbessern und zu bauen — weit jenseits menschlicher Fähigkeiten. Das ist das Endspiel.
"Our generation was born too late to explore the earth, and too early to explore the stars. But we are born just in time to solve robotics."
Definition von Physical AGI: Ein System, das "jede" physische Aufgabe erlernen kann. Nicht ein für spezifische Aufgaben optimierter Industrierobotarm, sondern eine universelle physische Intelligenz, die durch Sprachbefehle und wenige Demonstrationen neue Aufgaben lernt. Das ist vollständig symmetrisch zur LLM-AGI-Definition: LLM AGI = "jede kognitive Aufgabe bewältigen", Physical AGI = "jede physische Aufgabe ausführen". Beides zusammen ergibt vollständige AGI.
Jim Fan zeigte eine scheinbar banale Szene: Ein Roboter faltet mit 22 Freiheitsgraden verschiedene Kleidungsstücke mit beiden Händen. Und er braucht nur eine einzige Demonstration, um unterschiedliche Falttechniken zu lernen.
Warum ist das wichtig? Weil Wäschefalten eines der "Heiligen-Gral-Probleme" der Robotik ist.
Wenn ein Roboter Wäsche falten kann, kann er auch:
"Wäschefalten" ist nicht das Ziel, sondern der Fähigkeitsbeweis. Es beweist, dass Roboter die Kluft von "starrer Manipulation" zu "flexibler Manipulation" überbrückt haben. Ist flexible Manipulation einmal freigeschaltet, liegen 90 % der physischen Alltagsaufgaben in Reichweite. Jim Fans demonstriertes "One-Shot Learning" (eine Demonstration reicht für eine neue Aufgabe) ist besonders entscheidend — es bedeutet, dass die Deployment-Kosten gegen Null gehen. Man braucht keinen Programmierer — man muss es nur "einmal vormachen".
Jim Fans Vortrag erwähnte keine spezifischen Länder direkt, aber jeder seiner Punkte trifft den Kern der globalen Fertigung.
Jim Fans Zeitplan gibt klare Hinweise:
Jede große Automatisierungsrevolution folgt demselben Muster:
Extrem ineffizient, nur einsetzbar in Kohlebergwerken (weil der Brennstoff nebenan kostenlos war). Niemand glaubte, sie könne Pferde ersetzen.
Effizienz verdreifacht, Einzug in Fabriken. Aber immer noch teuer, nur für Großunternehmen erschwinglich.
Kosten sinken stetig, Eisenbahn, Dampfschiffe, Fabriken setzen sie flächendeckend ein. 99 % der körperlichen Arbeit werden schließlich von Maschinen erledigt.
Nicht die Dampfmaschine wurde "schlauer" — sie wurde "billiger". Der steile Kostenverfall war der eigentliche Auslöser der Revolution.
Ein Training kostete Millionen, Inferenz war teuer, nur Forschungslabore konnten es sich leisten.
Kosten pro Gespräch sanken auf wenige Cent. Erstmals konnte jeder Normalmensch KI direkt nutzen.
Inferenzkosten sind auf unter 1/1000 des Niveaus von 2020 gefallen. KI ist Infrastruktur, kein Luxusgut mehr.
Jim Fans EgoScale reproduziert diese Kurve in der Robotik:
Von Newcomen zu Watt brauchte es 57 Jahre. Von AlexNet zu ChatGPT 10 Jahre. Von Teleoperation zu EgoScale weniger als 3 Jahre. Die Beschleunigung jeder Automatisierungsrevolution nimmt zu. Weil jede neue Revolution auf den Schultern der vorherigen steht — Robotertraining nutzt direkt die Architektur und Methodik der LLMs, und LLMs nutzten die Infrastruktur des Deep Learning. Jim Fans "Große Parallele" ist nicht nur eine Metapher — es ist eine auf historischen Beschleunigungsgesetzen aufbauende Engineering-Prognose.
Jim Fans Vortrag enthüllte eines kristallklar: NVIDIA wird zum "Schaufelverkäufer" des Roboter-Zeitalters. Sie bauen keine Roboterkörper, sondern:
"Compute = Environment = Data" bedeutet: Jede GPU, die einen Roboter trainiert, ist Umsatz für NVIDIA. Wenn weltweit Roboterfirmen um die Wette trainieren, verkauft NVIDIA keine Roboter — sondern das "Wasser und den Strom" für das Robotertraining.
EgoScales Lehre: Der Wettbewerbsvorteil künftiger Roboterfirmen liegt nicht in der Hardware, sondern in der Drehzahl des Datenschwungrads.
Jim Fans "Physical API"-Welt bedeutet:
Für Investoren: Nicht nur in Roboter-Hardware investieren, sondern vor allem in Roboter-KI-Software und -Plattformen.
Jim Fan erwähnte speziell das UMI-Paper (Universal Manipulation Interface) — eine extrem simple Idee, "Roboterhände direkt an menschliche Hände montieren" — die zwei Unicorns hervorbrachte. Das bestätigt eine ewige Gründerwahrheit: Die wertvollsten Innovationen sind oft die einfachsten. Nicht ein komplexeres Teleoperationssystem, sondern "einfach nicht teloperieren".
| Branche | Roboter-Auswirkung | Zeithorizont |
|---|---|---|
| Lagerhaltung & Logistik | Picking, Sortierung, Verpackung vollautomatisiert | 1-2 Jahre |
| Elektronik-Montage | Präzisionsteile-Montage, GPU-Produktionslinien | 2-3 Jahre |
| Häusliche Pflege | Altenpflege, Haushaltsautomatisierung | 3-5 Jahre |
| Landwirtschaft | Ernte, Sortierung, Verpackung | 3-5 Jahre |
| Wissenschaftliche Forschung | Automatisierte Nasslabore, Medikamentensynthese | 5-10 Jahre |
Die Roadmap ist klar. Die Große Parallele ist keine Hypothese, sondern bereits Realität. Jeden Schritt, den LLMs gegangen sind — Pretraining, Fine-Tuning, RL, automatisierte Forschung — werden Roboter nachvollziehen. Der Unterschied ist nur die Zeit.
Der Datenengpass wird durchbrochen. Von Teleoperation über Daten-Wearables zu menschlichen Videos — jede Generation steigert das Datenvolumen um das 100- bis 1000-Fache. Die Entdeckung des Neural Scaling Law beweist: Solange es Daten gibt, werden Roboter stetig besser.
Vor 2040 wird das Endspiel erreicht — aber der Wendepunkt kommt in 1-2 Jahren. Der Physical Turing Test könnte in 2-3 Jahren bestanden werden. Der "ChatGPT-Moment" der Robotik — der Moment, in dem Normalsterbliche staunend sagen "So etwas können Roboter?" — könnte nur 1-2 Jahre entfernt sein.
Drei Artikel, drei Perspektiven, eine Schlussfolgerung:
| Teil | Redner | Kernthese | Handlungsfenster |
|---|---|---|---|
| Teil 1: Überblick | Sequoia-Partner | KI ist eine Rechenrevolution, AGI ist da, Dienstleistungsmarkt 10 Bio. $ | 18 Monate |
| Teil 2: Software 3.0 | Andrej Karpathy | LLM als Computer, Verifizierbarkeit bestimmt Automatisierungsgeschwindigkeit, Verstehen ist nicht auslagerbar | 12 Monate |
| Teil 3: Robotik-Endspiel (dieser Artikel) | Jim Fan | Die Große Parallele, Physical-AGI-Blaupause, Trainingskostenkomprimierung um Faktor 10 | 1-3 Jahre |
AGI ist keine Zukunft — sie ist Gegenwart. Digitale AGI schreibt die Software neu (Karpathy), Physical AGI schreibt die Fertigung neu (Jim Fan), und Sequoias Partner setzen bereits darauf.
Was bedeutet das für dich? Du musst weder die Dream-Zero-Architektur noch die Mathematik des Neural Scaling Law verstehen. Was du verstehen musst: Alles, was du jetzt tust — Code schreiben, Fabriken managen, Alte pflegen, Lager sortieren — es gibt eine KI-/Roboterversion davon, die gerade trainiert wird. Die Frage ist nicht "Wird es passieren?", sondern "Was ist deine Rolle in dieser Version?".
18 Monate. Das ist Sequoias Zeitfenster. Das ist keine Drohung — es ist eine Einladung. Eine Einladung, jetzt zu denken und zu handeln.
"If you believe in robotics, robotics will believe in you."
Serienthema: AGI ist keine Zukunft — sie ist Gegenwart. Und du hast nur 18 Monate.