Sequoia AI Ascent 2026 Tiefenanalyse 3/3

Das Endspiel der Robotik — Nvidias Große Parallele

Jim Fans Blaupause für Physical AGI

Unabhängige Analyse | Agui Research Lab | 2026-05-02
Serienthema: AGI ist keine Zukunft mehr — sie ist Gegenwart. Und du hast nur 18 Monate.

Im Sommer 2016 marschierte ein kräftiger Mann in Lederjacke mit einer riesigen Metallplatte ins OpenAI-Büro. Eingraviert stand: "Für Elon und das OpenAI-Team — gewidmet der Zukunft des Rechnens und der Menschheit." Es war die weltweit erste DGX-1. Ein Praktikant namens Jim Fan rannte hin und unterschrieb.

Zehn Jahre später stand dieser Praktikant auf der Bühne der Sequoia AI Ascent und verkündete, die Robotik sei in die "Endschlacht" eingetreten.
Seine These ist erschütternd: Nicht einen Superroboter bauen, sondern eine Million Roboter gleichzeitig lernen lassen. So wie LLMs aus den Texten des Internets Sprache gelernt haben, werden Roboter aus menschlichen Alltagsvideos alle physischen Bewegungen lernen.

Und diesmal wurden die Trainingskosten um das 10-Fache komprimiert. Der "ChatGPT-Moment" der Robotik könnte nur noch 1-2 Jahre entfernt sein.

Zusammenfassung

NVIDIA-Robotikforschungsleiter Jim Fan stellte auf der Sequoia AI Ascent 2026 die "Große Parallele" (The Great Parallel) vor: Die Robotik wird den vierstufigen Erfolgspfad großer Sprachmodelle vollständig kopieren — Pretraining, Fine-Tuning, Reinforcement Learning, automatisierte Forschung. Er präsentierte drei zentrale Technologiedurchbrüche: Dream Zero (World Action Model — Roboter "träumen" die Zukunft, bevor sie handeln), EgoScale (menschliche Ego-Perspektiv-Videos statt Teleoperation — Entdeckung des Neural Scaling Law für Roboter-Geschicklichkeit), Dream Dojo (Neuraler Simulator — GPUs statt echter Roboter für RL). Er prognostiziert das Erreichen des Robotik-Endspiels vor 2040, wobei der "Physical Turing Test" — bei dem man nicht mehr unterscheiden kann, ob ein Mensch oder ein Roboter arbeitet — nur noch 2-3 Jahre entfernt ist. Dieser Artikel analysiert aus Ersten Grundsätzen die technische Architektur, Datenstrategie, Geschäftslogik und die Implikationen dieses Vortrags.

Die Große Parallele Physical AGI GR00T Dream Zero World Action Model EgoScale Neural Scaling Law Sim-to-Real Dream Dojo Cosmos Newton Humanoide Roboter

Inhaltsverzeichnis

Warum kein Superroboter? (Die Große Parallele)
Nvidias Dreierpack: GR00T + Cosmos + Newton
Von Simulation zu Realität: Trainingskosten um Faktor 10 komprimiert
Physical AGI: Definition und Zeitplan
Wenn Roboter Wäsche falten — was bedeutet das?
Chancen und Risiken für die Fertigungsindustrie
Historischer Vergleich — Von der Dampfmaschine zum Roboter
Geschäftliche Erkenntnisse — Die Investitionslogik der Roboter-Ökonomie
Fazit + Serienübersicht
Quellenverzeichnis

I. Warum kein Superroboter? (Die Große Parallele)

Science-Fiction-Filme zeigen uns immer dasselbe Bild: ein humanoider Roboter, der wie der Terminator alles kann. Doch Jim Fan sagt, das ist der völlig falsche Ansatz.

Er rekapitulierte den Erfolgspfad der LLMs und identifizierte vier stufenförmige Funktionssprünge — zwischen jedem Sprung liegen nur sechs Jahre:

2020 — GPT-3 Pretraining

Next-Token-Prediction = die "Form" der Sprache lernen — Grammatik, Logik, wie sich Code entfaltet

2022 — InstructGPT Supervised Fine-Tuning

Die Simulation auf "nützliche Arbeit" ausrichten — aus dem Meer der Möglichkeiten auf den menschlich gewünschten Output konvergieren

2024 — Reasoning-Modelle (o1)

Mit Reinforcement Learning über Imitation hinausgehen — das Modell beginnt zu "denken", statt nur nachzuerzählen

2026 — Automatisierte Forschung

Den gesamten Kreislauf beschleunigen, über menschliche Möglichkeiten hinaus — KI beginnt, selbst KI-Forschung zu betreiben

Jim Fans zentrale Erkenntnis: Diese vier Stufen lassen sich vollständig auf die Robotik übertragen. Er nennt das "The Great Parallel" (Die Große Parallele).

Erste Grundsätze

Die Große Parallele: Wenn LLMs durch die Vorhersage des "nächsten Wortes" Sprache gelernt haben, können Roboter durch die Vorhersage des "nächsten physischen Weltzustands" Bewegung lernen. Die mathematische Grundstruktur ist identisch — beides sind Sequenzvorhersageprobleme. Der Unterschied: LLMs sagen diskrete Tokens vorher, Roboter sagen kontinuierliche Pixel und Gelenkwinkel vorher.

LLM-Pfad	Roboter-Parallelpfad	Kerntechnologie
Pretraining (nächstes Wort vorhersagen)	Pretraining (nächsten physischen Zustand vorhersagen)	World Model / Cosmos
Supervised Fine-Tuning (nützlichen Output ausrichten)	Action Fine-Tuning (auf echte Roboter ausrichten)	GR00T / Dream Zero
RL Reasoning (über Imitation hinaus)	RL im Simulator trainieren	Newton / Dream Dojo
Automatisierte Forschung	Physische automatisierte Forschung	Roboter entwerfen und bauen die nächste Generation selbst

"So as any self-respecting scientist would do, I copy homework and I give it a new name. I call it the Great Parallel."

— Jim Fan, Sequoia AI Ascent 2026

Das ist keine Metapher. Das ist eine umsetzbare Engineering-Roadmap. Jim Fan sagt nicht "Roboter werden irgendwann wie ChatGPT sein" — er sagt "Wir gehen bereits denselben Weg und wissen, wo jede Kurve liegt".

Kernerkenntnis

Warum kein Superroboter? Weil der Erfolg der LLMs nie von einem einzigen Supermodell kam, das allein Durchbrüche erzielte, sondern von massiv parallelisiertem Training — Milliarden Parameter, Billionen Tokens, Tausende GPUs. Bei Robotern ist es genauso: Die Zukunft ist nicht ein allkönnender Roboter, sondern Millionen Roboter, die gleichzeitig in simulierten Umgebungen lernen und ihre Fähigkeiten dann in die reale Welt übertragen. Quantität schlägt Qualität — das ist die wahre Bedeutung der "Großen Parallele".

II. Nvidias Dreierpack: GR00T + Cosmos + Newton

Damit die Große Parallele funktioniert, braucht man drei Kernkomponenten. Jim Fans Team hat alle drei gebaut.

1. GR00T — Das Foundation Model für humanoide Roboter

GR00T (Generalist Robot 00 Technology) ist NVIDIAs Foundation Model für humanoide Roboter. In den letzten drei Jahren dominierte die VLA-Architektur (Vision-Language-Action) — im Kern ein Sprachmodell mit einem Action-Output-Kopf.

Jim Fan identifizierte das Problem messerscharf:

"These models are really LVAs, because the most amount of parameters are dedicated to language. Language is first-class citizen, followed by vision and action. By design, VLAs are great at encoding knowledge and nouns, but not so much at physics and verbs."

— Jim Fan

Er nannte ein klassisches Beispiel: Das Original-VLA-Paper demonstriert "Bewege die Cola-Dose neben das Foto von Taylor Swift" — ja, der Roboter erkannte Taylor Swift, aber das ist "Substantiv-Fähigkeit", nicht "Verb-Fähigkeit". Was man braucht, ist ein Roboter, der Schwerkraft, Reibung und Verformung weicher Objekte versteht — nicht Prominente erkennt.

2. Dream Zero — Das World Action Model (WAM)

Der Ersatz für VLA ist eine völlig neue Architektur: das World Action Model (WAM).

Dream Zero ist die erste Implementierung eines WAM. Seine Kernfähigkeit ist "Träumen" — vor der Ausführung einer Handlung simuliert es im Geist die nächsten Sekunden und entscheidet dann basierend auf dem Simulationsergebnis.

Kernmechanismus

Gleichzeitige Dekodierung von "nächstem Weltzustand" und "nächster Aktion" — Vision und Aktion sind gleichberechtigte Bürger

Schlüsseldurchbruch

Zero-Shot-Generalisierung — kann Aktionsaufgaben lösen, die im Training nie vorkamen

Verifikationsmethode

Visualisierung der "Träume" des Roboters: Stimmt das vorhergesagte Video, stimmt die Aktion; zeigt das Video Halluzinationen, schlägt die Aktion fehl

Historische Analogie

Wie die GPT-2-Ära — die Form stimmt, aber noch nicht präzise genug; Skalierung wird den qualitativen Sprung bringen

"A moment of silence for our dear friend VLAs. They've served us well. Rest in peace. Long live World Action Models."

— Jim Fan

3. Cosmos + Newton — Weltmodell und Physik-Engine

Wo "träumt" Dream Zero? Es braucht ein Weltmodell als Traumlieferant.

Cosmos: NVIDIAs Video-Weltmodell, das durch Vorhersage des nächsten Pixel-Frames Physik lernt. Jim Fan zeigte, wie Cosmos (V3) selbständig Schwerkraft, Auftrieb und Lichtbrechung gelernt hat — keine physikalischen Gleichungen einprogrammiert, die Physikgesetze "emergieren" aus der Pixelvorhersage
Newton: Klassische Physiksimulations-Engine für Szenarien, die präzise Kollisionserkennung und Starrkörperdynamik erfordern
Dream Dojo: Verwandelt Cosmos in einen vollständigen "neuralen Simulator" — Input: Aktionssignal, Output: nächster RGB-Frame und Sensorstatus, vollständig datengetrieben, ohne physikalische Gleichungen oder Grafik-Engines

Erste Grundsätze

Rechenleistung = Umgebung = Daten. Im traditionellen Robotertraining braucht man echte Roboter (Hardware) in echten Umgebungen (Szenen), die echte Daten sammeln (Teleoperation). Alle drei haben physische Engpässe. Dream Dojos Durchbruch: GPU-Rechenleistung generiert direkt Trainingsumgebungen und -daten. Mehr GPUs kaufen = mehr Roboter, mehr Umgebungen, mehr Daten. Deshalb hat Jensens "Je mehr du kaufst, desto mehr sparst du" in der Robotik erstmals wörtliche Gültigkeit.

III. Von Simulation zu Realität: Trainingskosten um Faktor 10 komprimiert

Der größte Schmerzpunkt der Robotik waren immer die Daten. Jim Fan zeigte mit einer Grafik die Evolution der Datenstrategien:

Drei Generationen der Datensammlung

Methode	Obergrenze	Problem
Teleoperation	24 Std./Roboter/Tag (effektiv ca. 3 Std.)	Teuer, langsam, Roboter "zicken rum"; NVIDIA-Chefwissenschaftler Bill Dally operierte persönlich — vermutlich "die teuerste Teleoperations-Trajektorie der Geschichte"
Daten-Wearables (UMI/DexOoi)	Hunderttausende Stunden	Roboterhände direkt an menschliche Hände montieren und Daten sammeln, ohne Roboterkörper; hat zwei Unicorns hervorgebracht
Menschliche Ego-Perspektiv-Videos	Dutzende Millionen Stunden	Wie bei Tesla FSD: Im Hintergrund automatisch sammeln — menschliche Alltagsaktivitäten sind selbst Trainingsdaten

EgoScale: 99,9 % menschliche Videos + 0,1 % Teleoperation

Jim Fans EgoScale-System ist verblüffend:

21.000 Stunden

Menschliche Ego-Perspektiv-Videos für Pretraining (null Roboterdaten)

50 Stunden

Hochpräzisions-Datenhandschuh-Fine-Tuning

4 Stunden

Teleoperationsdaten (unter 0,1 %)

22 Freiheitsgrade

End-to-End-Policy für hochgeschickte Zweihändler-Roboter

Ergebnis: Mit 99,9 % menschlichen Alltagsvideos + 0,1 % Teleoperation lässt sich eine Policy trainieren, die Karten sortiert, Spritzen bedient und Kleidung faltet. Das ist der Schlüssel zur über 10-fachen Trainingskosten-Komprimierung.

Neural Scaling Law für Roboter-Geschicklichkeit

EgoScales aufsehenerregendste Entdeckung:

Bahnbrechende Entdeckung

Roboter-Geschicklichkeit folgt einem Neural Scaling Law — Pretraining-Stunden und Validierungsverlust zeigen eine saubere logarithmisch-lineare Beziehung. Das entspricht dem originalen Neural Scaling Law der Sprachmodelle, genau sechs Jahre zeitversetzt. Das bedeutet: Erhöht man kontinuierlich die Pretraining-Stunden menschlicher Videos, verbessert sich die Geschicklichkeit der Roboter vorhersagbar und stetig. Ist das Datenschwungrad einmal angelaufen, wächst es exponentiell.

Real-to-Sim-to-Real: iPhone als Taschen-Weltscanner

Jim Fan zeigte einen eleganten Workflow:

Reale Szene mit dem iPhone filmen
Alle Objekte über eine 3D-Scan-Pipeline extrahieren
Automatisch im Physiksimulator rekonstruieren (alle Objekte interaktiv)
Im Simulator unbegrenzt variieren (er nennt sie "Digital Cousins")
Trainierte Policy zurück auf echte Roboter übertragen

Die Bedeutung: Das iPhone wird zum Taschen-Weltscanner. Jeder kann seine Arbeitsumgebung scannen und den Roboter in der Simulation lernen lassen, dort zu arbeiten.

IV. Physical AGI: Definition und Zeitplan

Jim Fan nutzte den Civilization-Technologiebaum als Metapher für das Robotik-Endspiel. Er sagt, seine Forschung sei wie das Freischalten von Spielerfolgen. Drei Erfolge fehlen noch — dann kann er in Rente gehen.

Drei Meilensteine

Meilenstein 1: Physical Turing Test (in 2-3 Jahren)

Bei einem breiten Spektrum von Aktivitäten kann man nicht unterscheiden, ob ein Mensch oder ein Roboter die Aufgabe ausführt. Entscheidend ist "Energieeinsatz pro Arbeitseinheit" — nicht mit einem Betrunkenen vergleichen, aber das Effizienzniveau eines normalen Menschen erreichen.

Meilenstein 2: Physical API

Eine ganze Roboterflotte kann wie Software über APIs und Kommandozeilen konfiguriert werden. Jim Fan scherzte: "Eines Tages von Opus 9.0 gesteuert." Das ermöglicht "Dark Factories" — eine Markdown-Datei als Input, ein vollständig montiertes Produkt als Output, komplett unbemannt; sowie automatisierte Nasslabore zur Beschleunigung chemischer, biologischer und pharmazeutischer Entdeckungen.

Meilenstein 3: Physische automatisierte Forschung (vor 2040)

Roboter beginnen, die nächste Generation selbst zu entwerfen, zu verbessern und zu bauen — weit jenseits menschlicher Fähigkeiten. Das ist das Endspiel.

14 Jahre

Von AlexNet (2012) bis AI Ascent 2026: die digitale KI-Reise

14 Jahre

Jim Fans geschätzter Weg von 2026 zum Physical-AGI-Endspiel (2040)

95 %

Jim Fans Konfidenz, das Endspiel vor 2040 zu erreichen

Exponentiell

Technologie schreitet nicht linear, sondern exponentiell voran

"Our generation was born too late to explore the earth, and too early to explore the stars. But we are born just in time to solve robotics."

— Jim Fan

Erste Grundsätze

Definition von Physical AGI: Ein System, das "jede" physische Aufgabe erlernen kann. Nicht ein für spezifische Aufgaben optimierter Industrierobotarm, sondern eine universelle physische Intelligenz, die durch Sprachbefehle und wenige Demonstrationen neue Aufgaben lernt. Das ist vollständig symmetrisch zur LLM-AGI-Definition: LLM AGI = "jede kognitive Aufgabe bewältigen", Physical AGI = "jede physische Aufgabe ausführen". Beides zusammen ergibt vollständige AGI.

V. Wenn Roboter Wäsche falten — was bedeutet das?

Jim Fan zeigte eine scheinbar banale Szene: Ein Roboter faltet mit 22 Freiheitsgraden verschiedene Kleidungsstücke mit beiden Händen. Und er braucht nur eine einzige Demonstration, um unterschiedliche Falttechniken zu lernen.

Warum ist das wichtig? Weil Wäschefalten eines der "Heiligen-Gral-Probleme" der Robotik ist.

Warum ist Wäschefalten so schwer?

Flexible Objekte: Kleidung hat keine feste Form — jeder Griff beginnt in einem anderen Zustand
Hochdimensionale Manipulation: 44 Gelenke beider Hände müssen präzise koordiniert werden
Multistrategische Generalisierung: Verschiedene Kleidungsstücke (T-Shirt vs. Hose vs. Handtuch) erfordern verschiedene Falttechniken
Taktiles Feedback: Zu viel Kraft reißt, zu wenig lässt fallen

Wenn ein Roboter Wäsche falten kann, kann er auch:

Haushaltsszenarien

Zimmer aufräumen, Dinge sortieren
Zutaten für Mahlzeiten vorbereiten
Häusliche Pflege (Spritzen bedienen, Blutdruck messen)
Putzen, Abwaschen, Aufräumen

Industrieszenarien

Präzisionselektronik montieren
Lagerpicking und Sortierung
Qualitätsprüfung und Verpackung
GPU-Montage (von Jim Fan tatsächlich demonstriert)

Tiefere Bedeutung

"Wäschefalten" ist nicht das Ziel, sondern der Fähigkeitsbeweis. Es beweist, dass Roboter die Kluft von "starrer Manipulation" zu "flexibler Manipulation" überbrückt haben. Ist flexible Manipulation einmal freigeschaltet, liegen 90 % der physischen Alltagsaufgaben in Reichweite. Jim Fans demonstriertes "One-Shot Learning" (eine Demonstration reicht für eine neue Aufgabe) ist besonders entscheidend — es bedeutet, dass die Deployment-Kosten gegen Null gehen. Man braucht keinen Programmierer — man muss es nur "einmal vormachen".

VI. Chancen und Risiken für die Fertigungsindustrie

Jim Fans Vortrag erwähnte keine spezifischen Länder direkt, aber jeder seiner Punkte trifft den Kern der globalen Fertigung.

Warum Fertigungsnationen Schlüsselknotenpunkte der Roboterrevolution sind

Halbleiter

Globales Zentrum der fortschrittlichen Chipfertigung — das "Gehirn" der Roboter

Fertigung 30%+

Fertigungsstarke Länder — der am leichtesten durch Roboter automatisierbare Bereich

Arbeitskräftemangel

Geburtenrückgang + Überalterung = wachsende Arbeitskräftelücke

Vollständige Lieferkette

Vom Chip über Präzisionsmechanik bis Elektronik — die gesamte Wertschöpfungskette

Chancen

Explosion der Chipnachfrage: Dream-Dojo-artige neurale Simulatoren brauchen massenhaft GPUs — jeder Roboter-Trainingsplatz ist ein Chipkunde
Lösung des Arbeitskräftemangels: Genau das Problem, das Roboter am besten lösen können
Präzisionsfertigung-Upgrade: Präzisionsmechanik-Industrie kann sich zum Roboter-Hardware-Zulieferer transformieren
First-Mover-Vorteil: Wer zuerst Physical AGI in Fabriken einführt, sichert die Wettbewerbsfähigkeit

Risiken

Reshoring: Wenn Roboter Arbeitskosten auf null senken, muss Fertigung nicht mehr in Niedriglohnländern bleiben
Wegfall der Mittelschicht: Auftragsfertigung basiert auf "Personal + Management" — wenn Roboter beides ersetzen...
Wettbewerb: Massive Investitionen in humanoide Roboter mit größerem Markt und mehr Anwendungsszenarien
Technologieabhängigkeit: Kern-KI-Modelle und Trainingsframeworks in den Händen von NVIDIA/Google/OpenAI

Handlungsleitfaden

Jim Fans Zeitplan gibt klare Hinweise:

18-Monats-Fenster: Der Physical Turing Test kommt in 2-3 Jahren — jetzt mit der Vorbereitung beginnen
Von "Auftragsfertigung" zu "intelligenter Fertigung": NVIDIAs Omniverse und Cosmos-Plattform einsetzen, um digitale Zwillingsfabriken aufzubauen
Trainingsdaten liegen bereit: Produktionslinien-Videos und Arbeiteroperationsvideos sind genau die "menschlichen Ego-Perspektiv-Videos", die EgoScale braucht
Transformation der Präzisionsmechanik: In Schlüsselkomponenten für humanoide Roboter investieren (Aktuatoren, Sensoren, geschickte Hände)

VII. Historischer Vergleich — Von der Dampfmaschine zum Roboter

Jede große Automatisierungsrevolution folgt demselben Muster:

Historisches Muster: Von "zu teuer" zu "zu billig"

1712 — Newcomen-Dampfmaschine

Extrem ineffizient, nur einsetzbar in Kohlebergwerken (weil der Brennstoff nebenan kostenlos war). Niemand glaubte, sie könne Pferde ersetzen.

1769 — Watts verbesserte Dampfmaschine

Effizienz verdreifacht, Einzug in Fabriken. Aber immer noch teuer, nur für Großunternehmen erschwinglich.

1800er — Dampfmaschine wird allgegenwärtig

Kosten sinken stetig, Eisenbahn, Dampfschiffe, Fabriken setzen sie flächendeckend ein. 99 % der körperlichen Arbeit werden schließlich von Maschinen erledigt.

Wendepunkt

Nicht die Dampfmaschine wurde "schlauer" — sie wurde "billiger". Der steile Kostenverfall war der eigentliche Auslöser der Revolution.

Historisches Muster: Der Kostenverfall der LLMs

2020 — GPT-3

Ein Training kostete Millionen, Inferenz war teuer, nur Forschungslabore konnten es sich leisten.

2022 — ChatGPT

Kosten pro Gespräch sanken auf wenige Cent. Erstmals konnte jeder Normalmensch KI direkt nutzen.

2026 — Heute

Inferenzkosten sind auf unter 1/1000 des Niveaus von 2020 gefallen. KI ist Infrastruktur, kein Luxusgut mehr.

Jim Fans EgoScale reproduziert diese Kurve in der Robotik:

Teleoperations-Ära

100 % Roboterdaten nötig = Tausende Dollar pro Stunde

EgoScale-Ära

0,1 % Roboterdaten nötig = Kostenkomprimierung um Faktor 1000

Historische Gesetzmäßigkeit

Von Newcomen zu Watt brauchte es 57 Jahre. Von AlexNet zu ChatGPT 10 Jahre. Von Teleoperation zu EgoScale weniger als 3 Jahre. Die Beschleunigung jeder Automatisierungsrevolution nimmt zu. Weil jede neue Revolution auf den Schultern der vorherigen steht — Robotertraining nutzt direkt die Architektur und Methodik der LLMs, und LLMs nutzten die Infrastruktur des Deep Learning. Jim Fans "Große Parallele" ist nicht nur eine Metapher — es ist eine auf historischen Beschleunigungsgesetzen aufbauende Engineering-Prognose.

VIII. Geschäftliche Erkenntnisse — Die Investitionslogik der Roboter-Ökonomie

1. Der Schaufelverkäufer gewinnt

Investitionslogik #1: Infrastrukturebene

Jim Fans Vortrag enthüllte eines kristallklar: NVIDIA wird zum "Schaufelverkäufer" des Roboter-Zeitalters. Sie bauen keine Roboterkörper, sondern:

Trainingsinfrastruktur: GPU + Omniverse + Cosmos = die komplette Robotertrainings-Plattform
Modellebene: GR00T + Dream Zero = Foundation Models, die jede Roboterfirma braucht
Simulationsumgebung: Dream Dojo + Newton = virtuelle Trainingsanlagen, die Millionen echter Roboter ersetzen

"Compute = Environment = Data" bedeutet: Jede GPU, die einen Roboter trainiert, ist Umsatz für NVIDIA. Wenn weltweit Roboterfirmen um die Wette trainieren, verkauft NVIDIA keine Roboter — sondern das "Wasser und den Strom" für das Robotertraining.

2. Daten als Burggraben

Investitionslogik #2: Datenschwungrad

EgoScales Lehre: Der Wettbewerbsvorteil künftiger Roboterfirmen liegt nicht in der Hardware, sondern in der Drehzahl des Datenschwungrads.

Tesla-Modell: Millionen Autos sammeln täglich automatisch Fahrdaten. Jim Fan nannte dies explizit als Leitbild für die Roboter-Datenstrategie
Deployment = Training: Jeder eingesetzte Roboter ist ein Datensammler — mehr Einsatz = mehr Daten = besseres Modell = noch mehr Einsatz
Enormer First-Mover-Vorteil: Wer als Erster das Schwungrad startet, zieht exponentiell davon

3. Software frisst Hardware — wieder einmal

Investitionslogik #3: Software-definierte Roboter

Jim Fans "Physical API"-Welt bedeutet:

Roboter-Hardware wird zur Massenware (wie heute Server-Hardware)
Wert konzentriert sich auf der Software-/Modellebene (wie heute Cloud-Services)
"Dark Factories" = die Roboter-Version von "Serverless Architecture" — Befehl rein, Produkt raus, dazwischen alles KI

Für Investoren: Nicht nur in Roboter-Hardware investieren, sondern vor allem in Roboter-KI-Software und -Plattformen.

4. UMI-Lehre: Die einfachste Idee kann Unicorns hervorbringen

Investitionslogik #4: Innovation liegt nicht in der Komplexität

Jim Fan erwähnte speziell das UMI-Paper (Universal Manipulation Interface) — eine extrem simple Idee, "Roboterhände direkt an menschliche Hände montieren" — die zwei Unicorns hervorbrachte. Das bestätigt eine ewige Gründerwahrheit: Die wertvollsten Innovationen sind oft die einfachsten. Nicht ein komplexeres Teleoperationssystem, sondern "einfach nicht teloperieren".

Fünf profitierende Branchen

Branche	Roboter-Auswirkung	Zeithorizont
Lagerhaltung & Logistik	Picking, Sortierung, Verpackung vollautomatisiert	1-2 Jahre
Elektronik-Montage	Präzisionsteile-Montage, GPU-Produktionslinien	2-3 Jahre
Häusliche Pflege	Altenpflege, Haushaltsautomatisierung	3-5 Jahre
Landwirtschaft	Ernte, Sortierung, Verpackung	3-5 Jahre
Wissenschaftliche Forschung	Automatisierte Nasslabore, Medikamentensynthese	5-10 Jahre

IX. Fazit + Serienübersicht

Die drei Kernbotschaften von Jim Fans Vortrag

Botschaft 1

Die Roadmap ist klar. Die Große Parallele ist keine Hypothese, sondern bereits Realität. Jeden Schritt, den LLMs gegangen sind — Pretraining, Fine-Tuning, RL, automatisierte Forschung — werden Roboter nachvollziehen. Der Unterschied ist nur die Zeit.

Botschaft 2

Der Datenengpass wird durchbrochen. Von Teleoperation über Daten-Wearables zu menschlichen Videos — jede Generation steigert das Datenvolumen um das 100- bis 1000-Fache. Die Entdeckung des Neural Scaling Law beweist: Solange es Daten gibt, werden Roboter stetig besser.

Botschaft 3

Vor 2040 wird das Endspiel erreicht — aber der Wendepunkt kommt in 1-2 Jahren. Der Physical Turing Test könnte in 2-3 Jahren bestanden werden. Der "ChatGPT-Moment" der Robotik — der Moment, in dem Normalsterbliche staunend sagen "So etwas können Roboter?" — könnte nur 1-2 Jahre entfernt sein.

Zusammenfassung der Sequoia AI Ascent 2026 Serie

Drei Artikel, drei Perspektiven, eine Schlussfolgerung:

Teil	Redner	Kernthese	Handlungsfenster
Teil 1: Überblick	Sequoia-Partner	KI ist eine Rechenrevolution, AGI ist da, Dienstleistungsmarkt 10 Bio. $	18 Monate
Teil 2: Software 3.0	Andrej Karpathy	LLM als Computer, Verifizierbarkeit bestimmt Automatisierungsgeschwindigkeit, Verstehen ist nicht auslagerbar	12 Monate
Teil 3: Robotik-Endspiel (dieser Artikel)	Jim Fan	Die Große Parallele, Physical-AGI-Blaupause, Trainingskostenkomprimierung um Faktor 10	1-3 Jahre

Serienzusammenfassung

AGI ist keine Zukunft — sie ist Gegenwart. Digitale AGI schreibt die Software neu (Karpathy), Physical AGI schreibt die Fertigung neu (Jim Fan), und Sequoias Partner setzen bereits darauf.

Was bedeutet das für dich? Du musst weder die Dream-Zero-Architektur noch die Mathematik des Neural Scaling Law verstehen. Was du verstehen musst: Alles, was du jetzt tust — Code schreiben, Fabriken managen, Alte pflegen, Lager sortieren — es gibt eine KI-/Roboterversion davon, die gerade trainiert wird. Die Frage ist nicht "Wird es passieren?", sondern "Was ist deine Rolle in dieser Version?".

18 Monate. Das ist Sequoias Zeitfenster. Das ist keine Drohung — es ist eine Einladung. Eine Einladung, jetzt zu denken und zu handeln.

"If you believe in robotics, robotics will believe in you."

— Jim Fan, Sequoia AI Ascent 2026

Sequoia AI Ascent 2026 Tiefenanalyse Serie

Serienthema: AGI ist keine Zukunft — sie ist Gegenwart. Und du hast nur 18 Monate.

Teil 1: AGI ist da — Sequoias dreifache Proklamation (Sequoia Keynote Tiefenanalyse)
Teil 2: Software 3.0 — Wenn LLM zum Computer wird (Karpathy Vortrag Tiefenanalyse)
Teil 3: Das Endspiel der Robotik — Nvidias Große Parallele (dieser Artikel)

Quellenverzeichnis

Jim Fan, "Nvidia's Jim Fan on the End Game for Robotics," Sequoia AI Ascent 2026, April 2026. YouTube
NVIDIA, "Project GR00T: Foundation Model for Humanoid Robots," NVIDIA Research, 2024-2026.
NVIDIA, "Cosmos: World Foundation Models," NVIDIA Research, 2025.
NVIDIA, "Newton: Physics Engine for Robotics Simulation," NVIDIA, 2025.
NVIDIA, "Dream Zero: World Action Models for Robotics," NVIDIA Research, 2026.
NVIDIA, "EgoScale: Egocentric Video Pre-training for Dexterous Manipulation," NVIDIA Research, 2026.
NVIDIA, "Dream Dojo: Neural Simulator for Robot Reinforcement Learning," NVIDIA Research, 2026.
Chi et al., "Universal Manipulation Interface (UMI): In-The-Wild Robot Teaching Without Robot," RSS 2024.
Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control," Google DeepMind, 2023.
Kaplan et al., "Scaling Laws for Neural Language Models," OpenAI, 2020.
Sequoia Capital, "AI Ascent 2026 Keynote," April 2026. YouTube
Andrej Karpathy, "From Vibe Coding to Agentic Engineering," Sequoia AI Ascent 2026. YouTube

Das Endspiel der Robotik — Nvidias Große Parallele

Zusammenfassung

I. Warum kein Superroboter? (Die Große Parallele)

II. Nvidias Dreierpack: GR00T + Cosmos + Newton

1. GR00T — Das Foundation Model für humanoide Roboter

2. Dream Zero — Das World Action Model (WAM)

3. Cosmos + Newton — Weltmodell und Physik-Engine

III. Von Simulation zu Realität: Trainingskosten um Faktor 10 komprimiert

Drei Generationen der Datensammlung

EgoScale: 99,9 % menschliche Videos + 0,1 % Teleoperation

Neural Scaling Law für Roboter-Geschicklichkeit

Real-to-Sim-to-Real: iPhone als Taschen-Weltscanner

IV. Physical AGI: Definition und Zeitplan

Drei Meilensteine

V. Wenn Roboter Wäsche falten — was bedeutet das?

Warum ist Wäschefalten so schwer?

VI. Chancen und Risiken für die Fertigungsindustrie

Warum Fertigungsnationen Schlüsselknotenpunkte der Roboterrevolution sind

VII. Historischer Vergleich — Von der Dampfmaschine zum Roboter

VIII. Geschäftliche Erkenntnisse — Die Investitionslogik der Roboter-Ökonomie

1. Der Schaufelverkäufer gewinnt

2. Daten als Burggraben

3. Software frisst Hardware — wieder einmal

4. UMI-Lehre: Die einfachste Idee kann Unicorns hervorbringen

Fünf profitierende Branchen

IX. Fazit + Serienübersicht

Die drei Kernbotschaften von Jim Fans Vortrag

Zusammenfassung der Sequoia AI Ascent 2026 Serie

Quellenverzeichnis

Verwandte Artikel