DeutschEnglishภาษาไทย
Sequoia AI Ascent 2026 深度解讀 3/3

機器人的終局 — Nvidia 的大平行理論

Jim Fan 描繪的實體 AGI 藍圖

獨立研究 | 阿貴研究室 | 2026-05-02
系列主題:AGI 不是未來,是現在 —— 而你只有 18 個月的窗口

2016 年夏天,一個穿著皮夾克的壯漢,扛著一塊巨大的金屬板走進 OpenAI 辦公室。上面刻著:「致 Elon 和 OpenAI 團隊,獻給計算與人類的未來。」那是全世界第一台 DGX-1。一個叫 Jim Fan 的實習生衝上去簽了名。

十年後,那個實習生站在 Sequoia AI Ascent 的舞台上,宣布機器人技術已經進入「終局之戰」。
他的論點令人震撼:不是打造一台超級機器人,而是讓百萬台機器人同時學習。就像 LLM 用網際網路的文字學會了語言,機器人將用人類的日常影片學會一切物理動作。

而這一次,訓練成本壓縮了 10 倍。機器人的「ChatGPT 時刻」,可能只剩 1-2 年。

摘 要

NVIDIA 機器人研究負責人 Jim Fan 在 Sequoia AI Ascent 2026 提出「大平行理論」(The Great Parallel):機器人技術將完整複製大型語言模型的四階段成功路徑——預訓練、微調、強化學習、自動化研究。他介紹了三項關鍵技術突破:Dream Zero(世界動作模型,讓機器人「夢見」未來再行動)、EgoScale(用人類第一人稱影片取代遙控操作,發現機器人靈巧度的 Neural Scaling Law)、Dream Dojo(神經模擬器,用 GPU 取代真實機器人做強化學習)。他預測 2040 年前機器人將完成技術樹的最終解鎖,而「物理圖靈測試」——讓你分不出是人還是機器人在操作——只需 2-3 年。本文從第一性原理出發,拆解這場演講的技術架構、數據策略、商業邏輯與台灣啟示。

大平行理論 Physical AGI GR00T Dream Zero World Action Model EgoScale Neural Scaling Law Sim-to-Real Dream Dojo Cosmos Newton 人形機器人
目錄
  1. 為什麼不是一台超級機器人?(大平行理論)
  2. Nvidia 的三件套:GR00T + Cosmos + Newton
  3. 模擬到真實:訓練成本壓縮 10 倍
  4. Physical AGI 的定義與時間表
  5. 當機器人會摺衣服 —— 這代表什麼?
  6. 台灣製造業的機會與威脅
  7. 歷史印證 —— 從蒸汽機到機器人
  8. 商業啟發 —— 機器人經濟的投資邏輯
  9. 結論 + 系列導讀
  10. 參考文獻

一、為什麼不是一台超級機器人?(大平行理論)

科幻電影總是給我們一個畫面:一台人形機器人,像終結者一樣,什麼都會做。但 Jim Fan 說,這完全搞錯了方向。

回顧 LLM 的成功路徑,他整理出四個階段性的函數跳躍,每個階段之間只隔六年:

2020 — GPT-3 預訓練

下一個 Token 預測 = 學習語言的「形狀」——文法、邏輯、程式碼如何展開

2022 — InstructGPT 監督微調

將模擬對齊到「有用的工作」——從海量可能性中收斂到人類需要的輸出

2024 — 推理模型(o1)

用強化學習超越模仿學習——模型開始「思考」,而不只是複述

2026 — 自動化研究

加速整個迴圈,超越人類所能——AI 開始自己做 AI 研究

Jim Fan 的核心洞察:這四個階段可以完整平移到機器人領域。他稱之為「大平行理論」(The Great Parallel)。

第一性原理

大平行理論:如果 LLM 是透過預測「下一個文字」學會了語言,那機器人就可以透過預測「下一個物理世界狀態」學會動作。兩者的底層數學結構是相同的——都是序列預測問題。差別只在:LLM 預測的是離散的 Token,機器人預測的是連續的像素和關節角度。

LLM 路徑機器人平行路徑核心技術
預訓練(預測下一個字)預訓練(預測下一個物理狀態)World Model / Cosmos
監督微調(對齊到有用輸出)動作微調(對齊到真實機器人)GR00T / Dream Zero
RL 推理(超越模仿)RL 在模擬器中訓練Newton / Dream Dojo
自動化研究物理自動化研究機器人設計並建造下一代自己

"So as any self-respecting scientist would do, I copy homework and I give it a new name. I call it the Great Parallel."

— Jim Fan, Sequoia AI Ascent 2026

這不是比喻。這是一個可操作的工程路線圖。Jim Fan 不是在說「機器人有一天會像 ChatGPT」,他是在說「我們已經在走同一條路,而且知道每個轉彎在哪裡」。

關鍵洞察

為什麼不是一台超級機器人?因為 LLM 的成功從來不是靠一個超級模型獨自突破,而是靠規模化的平行訓練——數十億參數、數兆 Token、數千張 GPU。機器人也一樣:未來不是一台萬能機器人,而是百萬台機器人同時在模擬環境中學習,再將學到的能力部署到真實世界。數量戰勝質量,這才是「大平行」的真正含義。

二、Nvidia 的三件套:GR00T + Cosmos + Newton

要讓大平行理論運作,需要三個核心組件。Jim Fan 的團隊恰好都做了。

1. GR00T — 人形機器人的基礎模型

GR00T(Generalist Robot 00 Technology)是 NVIDIA 為人形機器人打造的基礎模型。過去三年,機器人界由 VLA(視覺語言動作模型)主導——本質上是在一個語言模型上面接一個動作輸出頭。

Jim Fan 一針見血地指出了問題:

"These models are really LVAs, because the most amount of parameters are dedicated to language. Language is first-class citizen, followed by vision and action. By design, VLAs are great at encoding knowledge and nouns, but not so much at physics and verbs."

— Jim Fan

他舉了一個經典例子:VLA 的原始論文展示的是「把可樂罐移到 Taylor Swift 的照片旁邊」——是的,機器人認出了 Taylor Swift,但這是「名詞能力」,不是「動詞能力」。你需要的是機器人理解重力、摩擦力、柔性物體的形變,而不是認識名人。

2. Dream Zero — 世界動作模型(WAM)

取代 VLA 的是一種全新架構:World Action Model(WAM,世界動作模型)

Dream Zero 是 WAM 的第一個實作。它的核心能力是「做夢」——在執行動作之前,先在腦中模擬未來幾秒的場景,然後根據模擬結果決定動作。

核心機制
同時解碼「下一個世界狀態」和「下一個動作」——視覺和動作都是一等公民
關鍵突破
零樣本泛化——能解決訓練中從未見過的動作任務
驗證方式
可視化機器人的「夢境」:如果預測的影片正確,動作就正確;如果影片出現幻覺,動作就失敗
歷史類比
就像 GPT-2 時代——形狀對了但還不夠精準,規模化將帶來質變

"A moment of silence for our dear friend VLAs. They've served us well. Rest in peace. Long live World Action Models."

— Jim Fan

3. Cosmos + Newton — 世界模型與物理引擎

Dream Zero 需要在哪裡「做夢」?需要一個世界模型來提供夢境的素材。

第一性原理

運算 = 環境 = 數據。在傳統機器人訓練中,你需要真實機器人(硬體)在真實環境(場景)中收集真實數據(遙控操作)。三者都有物理瓶頸。Dream Dojo 的突破在於:用 GPU 運算直接生成訓練環境和數據。買更多 GPU 就等於擁有更多機器人、更多環境、更多數據。這就是為什麼 Jensen 說「買越多省越多」——這句話在機器人領域第一次成為字面上的事實。

三、模擬到真實:訓練成本壓縮 10 倍

機器人領域最大的痛點一直是數據。Jim Fan 用一張圖清楚呈現了數據策略的演進:

三代數據收集方式

方式天花板問題
遙控操作(Teleoperation)24 小時/機器人/天
(實際約 3 小時)
昂貴、緩慢、機器人常「鬧脾氣」;NVIDIA 首席科學家 Bill Dally 親自操控,可能是「史上最貴的遙控操作軌跡」
數據穿戴設備(UMI/DexOoi)數十萬小時把機器人手直接戴在人手上收集數據,免去機器人本體;催生了兩家獨角獸
人類自我中心影片(Egocentric Video)數千萬小時像 Tesla FSD 一樣,在背景中自動收集——人類日常活動本身就是訓練數據

EgoScale:99.9% 人類影片 + 0.1% 遙控操作

Jim Fan 介紹的 EgoScale 系統令人驚嘆:

21,000 小時
人類自我中心影片預訓練(零機器人數據)
50 小時
高精度數據手套微調
4 小時
遙控操作數據(不到 0.1%)
22 自由度
高靈巧度雙手機器人的端到端策略

結果:用 99.9% 的人類日常影片 + 0.1% 的遙控操作,就能訓練出一個能分類卡片、操作注射器、摺疊衣物的高靈巧度機器人策略。這是訓練成本壓縮 10 倍以上的關鍵。

機器人靈巧度的 Neural Scaling Law

EgoScale 論文最震撼的發現:

重大發現

機器人靈巧度存在 Neural Scaling Law——預訓練時數與驗證損失之間呈現乾淨的對數線性關係。這距離語言模型的原始 Neural Scaling Law 恰好六年。這意味著:只要持續增加人類影片的預訓練時數,機器人的靈巧度就會可預測地持續提升。數據飛輪一旦啟動,就是指數級的。

Real-to-Sim-to-Real:iPhone 變成口袋世界掃描器

Jim Fan 還展示了一個極其優雅的流程:

  1. 用 iPhone 拍攝真實場景
  2. 通過 3D 掃描管線提取所有物體
  3. 自動重建到物理模擬器中(所有物體可互動)
  4. 在模擬器中無限增強變異(他稱為「數位表親」Digital Cousins)
  5. 將訓練好的策略轉移回真實機器人

這個流程的意義:iPhone 基本上變成了一個口袋世界掃描器。任何人都可以掃描自己的工作環境,讓機器人在模擬中學習如何在那個環境中工作。

四、Physical AGI 的定義與時間表

Jim Fan 用《文明帝國》的科技樹來描述機器人的終局。他說自己的研究就像在解鎖遊戲成就。還剩三個成就,然後他就可以退休了。

三大里程碑

里程碑 1:物理圖靈測試(2-3 年內)

在廣泛的活動範圍中,你無法分辨是人還是機器人在執行任務。重點是「單位能量輸入 vs 單位勞動輸出」——不需要跟醉漢比,但要達到正常人類的效率水平。

里程碑 2:物理 API

整個機器人艦隊可以像軟體一樣,透過 API 和命令行配置。Jim Fan 開玩笑說「有一天被 Opus 9.0 調度」。這將實現「暗工廠」——輸入設計的 Markdown 檔案,輸出完全組裝好的產品,全程無人;以及自動化濕實驗室,加速化學、生物、醫藥的科學發現。

里程碑 3:物理自動化研究(2040 年前)

機器人開始自己設計、改進、建造下一代自己——遠超人類所能。這是終局。

14 年
從 AlexNet(2012)到 AI Ascent 2026 的數位 AI 歷程
14 年
Jim Fan 預估從 2026 到物理 AI 終局(2040)的同等距離
95%
Jim Fan 對 2040 年前達到終局的信心度
指數級
技術不是線性推進,而是指數加速

"Our generation was born too late to explore the earth, and too early to explore the stars. But we are born just in time to solve robotics."

— Jim Fan
第一性原理

Physical AGI 的本質定義:一個能夠學會「任何」物理任務的系統。不是針對特定任務優化的工業機械手臂,而是一個通用的、可以透過語言指令和少量示範就學會新任務的物理智能。這與 LLM 的 AGI 定義完全對稱——LLM AGI 是「能處理任何認知任務」,Physical AGI 是「能執行任何物理任務」。兩者結合,就是完整的 AGI。

五、當機器人會摺衣服 —— 這代表什麼?

Jim Fan 在演講中展示了一個看似平凡的場景:機器人用 22 自由度的雙手摺疊不同款式的衣物。而且只需要一次示範就能學會不同的摺法。

為什麼這很重要?因為摺衣服是機器人領域的「聖杯問題」之一。

摺衣服為什麼這麼難?

如果機器人能摺衣服,它就能:

家庭場景
  • 整理房間、收納物品
  • 準備餐點的食材處理
  • 居家照護(操作注射器、量血壓)
  • 清潔、洗碗、整理雜物
工業場景
  • 組裝精密電子零件
  • 倉儲揀貨與分類
  • 品質檢測與包裝
  • GPU 組裝(Jim Fan 實際展示的案例)
深層意義

「摺衣服」不是終點,而是能力證明。它代表機器人已經跨越了從「剛性操作」到「柔性操作」的鴻溝。一旦柔性操作被解鎖,人類日常生活中 90% 的物理任務都在射程之內。Jim Fan 演講中展示的「一次示範學會新任務」(one-shot demonstration)更是關鍵——這意味著部署成本趨近於零。你不需要程式設計師,你只需要「做一次給它看」。

六、台灣製造業的機會與威脅

Jim Fan 的演講沒有直接提到台灣,但每一個論點都直指台灣的核心競爭力。

為什麼台灣是機器人革命的關鍵節點?

TSMC
全球先進晶片製造中心——機器人的「大腦」在這裡生產
製造業 GDP 30%+
台灣仍是製造業重鎮——最容易被機器人自動化的領域
缺工危機
少子化 + 高齡化 = 勞動力缺口持續擴大
供應鏈完整
從晶片到精密機械到電子組裝,全產業鏈在一島之內
機會
  • 晶片需求爆發:Dream Dojo 式的神經模擬器需要海量 GPU——每個機器人訓練場都是 TSMC 的客戶
  • 缺工解方:台灣製造業面臨的缺工問題,恰好是機器人最擅長解決的
  • 精密製造升級:台灣精密機械產業可以轉型成機器人硬體供應商
  • 先行者優勢:如果台灣工廠率先導入 Physical AGI,可以維持製造業競爭力
威脅
  • 製造回流:如果機器人讓勞動成本歸零,製造業不必留在低成本地區——美國可以自己製造
  • 中間層消失:台灣代工模式的價值建立在「人力+管理」上,當機器人取代兩者……
  • 中國追趕:中國在人形機器人領域投入極大,且擁有更大的市場和更多的應用場景
  • 技術依賴:核心的 AI 模型和訓練框架掌握在 NVIDIA/Google/OpenAI 手中
台灣行動指南

Jim Fan 的時間表給台灣的啟示非常清楚:

  • 18 個月窗口:物理圖靈測試 2-3 年內到來,意味著現在就要開始佈局
  • 從「代工」到「智造」:導入 NVIDIA 的 Omniverse 和 Cosmos 平台建立數位孿生工廠
  • 訓練數據就在你手上:台灣工廠的產線影片、工人操作影片,就是 EgoScale 模式需要的「人類自我中心影片」
  • 精密機械轉型:上銀、台達等企業應該投資人形機器人硬體的關鍵零組件(致動器、感測器、靈巧手)

七、歷史印證 —— 從蒸汽機到機器人

每一次重大的自動化革命,都遵循同一個模式:

歷史模式:從「太貴」到「太便宜」
1712 — 紐科門蒸汽機

效率極低,只能用在煤礦抽水(因為燃料在旁邊免費)。沒有人相信它能取代馬匹。

1769 — 瓦特改良蒸汽機

效率提升 3 倍,開始進入工廠。但仍然很貴,只有大企業用得起。

1800s — 蒸汽機普及

成本持續下降,火車、輪船、工廠全面採用。99% 的體力勞動最終由機器完成。

轉折點

不是蒸汽機變「聰明」了,而是它變「便宜」了。成本曲線的陡降才是革命的觸發器。

歷史模式:LLM 的成本暴跌
2020 — GPT-3

訓練一次要數百萬美元,推理費用高昂,只有研究實驗室用得起。

2022 — ChatGPT

每次對話成本降到幾美分。第一次讓普通人可以直接使用 AI。

2026 — 今天

推理成本已降至 2020 年的 1/1000 以下。AI 成為基礎設施,而非奢侈品。

Jim Fan 的 EgoScale 正在機器人領域複製這個曲線:

遙控操作時代
需要 100% 機器人數據 = 每小時數千美元成本
EgoScale 時代
需要 0.1% 機器人數據 = 成本壓縮 1000 倍
歷史規律

蒸汽機從紐科門到瓦特花了 57 年。LLM 從 AlexNet 到 ChatGPT 花了 10 年。機器人從遙控操作到 EgoScale 花了不到 3 年。每一輪自動化革命的加速度都在增加。因為新的革命可以站在前一個革命的肩膀上——機器人訓練直接使用了 LLM 的架構和方法論,而 LLM 又使用了深度學習的基礎設施。Jim Fan 的「大平行理論」不只是比喻,它是一個建立在歷史加速規律上的工程預測。

八、商業啟發 —— 機器人經濟的投資邏輯

1. 賣鏟子的人贏

投資邏輯 #1:基礎設施層

Jim Fan 的演講最清楚地揭示了一件事:NVIDIA 正在成為機器人時代的「賣鏟人」。他們不做機器人本體,他們做的是:

  • 訓練基礎設施:GPU + Omniverse + Cosmos = 機器人訓練的全套平台
  • 模型層:GR00T + Dream Zero = 每個機器人公司都要用的基礎模型
  • 模擬環境:Dream Dojo + Newton = 取代百萬台真實機器人的虛擬訓練場

「Compute = Environment = Data」這個等式意味著:每一塊訓練機器人的 GPU 都是 NVIDIA 的營收。當全世界的機器人公司都在搶著訓練模型,NVIDIA 賣的不是機器人,而是訓練機器人的「水和電」。

2. 數據即護城河

投資邏輯 #2:數據飛輪

EgoScale 的啟示:未來機器人公司的競爭優勢不在硬體,而在數據飛輪的轉速

  • Tesla 模式:百萬台車每天自動收集駕駛數據。Jim Fan 明確將此作為機器人數據策略的標竿
  • 部署即訓練:每一台部署的機器人都是數據收集器,部署越多、數據越多、模型越好、可部署更多
  • 先發優勢極大:第一個啟動飛輪的公司會以指數速度拉開差距

3. 軟體吃掉硬體的又一個案例

投資邏輯 #3:軟體定義機器人

Jim Fan 描述的「Physical API」世界意味著:

  • 機器人硬體將商品化(就像今天的伺服器硬體)
  • 價值集中在軟體/模型層(就像今天的雲服務)
  • 「暗工廠」(Dark Factories)= 機器人版的「無伺服器架構」——輸入指令,輸出產品,中間全是 AI

對投資者的啟示:不要只投機器人硬體公司,更要投機器人的 AI 軟體和平台公司

4. UMI 啟示:最簡單的想法可以催生獨角獸

投資邏輯 #4:創新不在複雜度

Jim Fan 特別提到 UMI(Universal Manipulation Interface)論文——一個「把機器人手直接戴在人手上」的極簡想法——催生了兩家獨角獸。這呼應了一個永恆的創業真理:最有價值的創新往往是最簡單的。不是更複雜的遙控操作系統,而是「乾脆不要遙控」。

五大受益產業

產業機器人影響時間軸
倉儲物流揀貨、分類、包裝全自動化1-2 年
電子組裝精密零件組裝、GPU 生產線2-3 年
居家照護老人照護、家務自動化3-5 年
農業採摘、分級、包裝3-5 年
科學研究自動化濕實驗室、藥物合成5-10 年

九、結論 + 系列導讀

Jim Fan 演講的三個核心訊息

訊息一

路線圖已經清楚了。大平行理論不是假設,是已經在發生的事實。LLM 走過的每一步——預訓練、微調、RL、自動化研究——機器人都將跟隨。差別只在時間。

訊息二

數據瓶頸正在被打破。從遙控操作到數據穿戴到人類影片,每一代都將數據規模提升 100-1000 倍。Neural Scaling Law 的發現證明:只要有數據,機器人就會持續變好。

訊息三

2040 年前到達終局,但轉折點在 1-2 年內。物理圖靈測試可能 2-3 年內實現。機器人的「ChatGPT 時刻」——第一次讓普通人驚嘆「原來機器人可以這樣」——可能只在 1-2 年之後。

Sequoia AI Ascent 2026 系列總結

三篇文章,三個面向,一個結論:

篇章講者核心論點行動窗口
第一篇:總論Sequoia 合夥人AI 是運算革命,AGI 已經到來,服務市場 10 兆美元18 個月
第二篇:Software 3.0Andrej KarpathyLLM 即電腦,可驗證性決定自動化速度,理解力無法外包12 個月
第三篇:機器人終局(本文)Jim Fan大平行理論,Physical AGI 藍圖,訓練成本壓縮 10 倍1-3 年
系列總結

AGI 不是未來,是現在。數位 AGI 正在重寫軟體(Karpathy),Physical AGI 正在重寫製造業(Jim Fan),而 Sequoia 的合夥人們已經在上面押注。

對你的意義是什麼?你不需要理解 Dream Zero 的架構或 Neural Scaling Law 的數學。你需要理解的是:你現在做的每一件事——寫程式碼、管理工廠、照顧老人、整理倉庫——都有一個 AI/機器人版本正在被訓練。問題不是「會不會發生」,而是「你在那個版本中的角色是什麼」。

18 個月。這是 Sequoia 給的窗口。這不是恐嚇,是邀請——邀請你現在就開始思考,開始行動。

"If you believe in robotics, robotics will believe in you."

— Jim Fan, Sequoia AI Ascent 2026
Sequoia AI Ascent 2026 深度解讀系列

系列主題:AGI 不是未來,是現在 —— 而你只有 18 個月的窗口

  1. 第一篇:AGI 已經到來 — Sequoia 的三重宣告(Sequoia Keynote 深度解讀)
  2. 第二篇:Software 3.0 — 當 LLM 成為電腦(Karpathy 演講深度解讀)
  3. 第三篇:機器人的終局 — Nvidia 的大平行理論(本文)

參考文獻

  1. Jim Fan, "Nvidia's Jim Fan on the End Game for Robotics," Sequoia AI Ascent 2026, April 2026. YouTube
  2. NVIDIA, "Project GR00T: Foundation Model for Humanoid Robots," NVIDIA Research, 2024-2026.
  3. NVIDIA, "Cosmos: World Foundation Models," NVIDIA Research, 2025.
  4. NVIDIA, "Newton: Physics Engine for Robotics Simulation," NVIDIA, 2025.
  5. NVIDIA, "Dream Zero: World Action Models for Robotics," NVIDIA Research, 2026.
  6. NVIDIA, "EgoScale: Egocentric Video Pre-training for Dexterous Manipulation," NVIDIA Research, 2026.
  7. NVIDIA, "Dream Dojo: Neural Simulator for Robot Reinforcement Learning," NVIDIA Research, 2026.
  8. Chi et al., "Universal Manipulation Interface (UMI): In-The-Wild Robot Teaching Without Robot," RSS 2024.
  9. Brohan et al., "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control," Google DeepMind, 2023.
  10. Kaplan et al., "Scaling Laws for Neural Language Models," OpenAI, 2020.
  11. Sequoia Capital, "AI Ascent 2026 Keynote," April 2026. YouTube
  12. Andrej Karpathy, "From Vibe Coding to Agentic Engineering," Sequoia AI Ascent 2026. YouTube