Jim Fan 描繪的實體 AGI 藍圖
NVIDIA 機器人研究負責人 Jim Fan 在 Sequoia AI Ascent 2026 提出「大平行理論」(The Great Parallel):機器人技術將完整複製大型語言模型的四階段成功路徑——預訓練、微調、強化學習、自動化研究。他介紹了三項關鍵技術突破:Dream Zero(世界動作模型,讓機器人「夢見」未來再行動)、EgoScale(用人類第一人稱影片取代遙控操作,發現機器人靈巧度的 Neural Scaling Law)、Dream Dojo(神經模擬器,用 GPU 取代真實機器人做強化學習)。他預測 2040 年前機器人將完成技術樹的最終解鎖,而「物理圖靈測試」——讓你分不出是人還是機器人在操作——只需 2-3 年。本文從第一性原理出發,拆解這場演講的技術架構、數據策略、商業邏輯與台灣啟示。
科幻電影總是給我們一個畫面:一台人形機器人,像終結者一樣,什麼都會做。但 Jim Fan 說,這完全搞錯了方向。
回顧 LLM 的成功路徑,他整理出四個階段性的函數跳躍,每個階段之間只隔六年:
下一個 Token 預測 = 學習語言的「形狀」——文法、邏輯、程式碼如何展開
將模擬對齊到「有用的工作」——從海量可能性中收斂到人類需要的輸出
用強化學習超越模仿學習——模型開始「思考」,而不只是複述
加速整個迴圈,超越人類所能——AI 開始自己做 AI 研究
Jim Fan 的核心洞察:這四個階段可以完整平移到機器人領域。他稱之為「大平行理論」(The Great Parallel)。
大平行理論:如果 LLM 是透過預測「下一個文字」學會了語言,那機器人就可以透過預測「下一個物理世界狀態」學會動作。兩者的底層數學結構是相同的——都是序列預測問題。差別只在:LLM 預測的是離散的 Token,機器人預測的是連續的像素和關節角度。
| LLM 路徑 | 機器人平行路徑 | 核心技術 |
|---|---|---|
| 預訓練(預測下一個字) | 預訓練(預測下一個物理狀態) | World Model / Cosmos |
| 監督微調(對齊到有用輸出) | 動作微調(對齊到真實機器人) | GR00T / Dream Zero |
| RL 推理(超越模仿) | RL 在模擬器中訓練 | Newton / Dream Dojo |
| 自動化研究 | 物理自動化研究 | 機器人設計並建造下一代自己 |
"So as any self-respecting scientist would do, I copy homework and I give it a new name. I call it the Great Parallel."
這不是比喻。這是一個可操作的工程路線圖。Jim Fan 不是在說「機器人有一天會像 ChatGPT」,他是在說「我們已經在走同一條路,而且知道每個轉彎在哪裡」。
為什麼不是一台超級機器人?因為 LLM 的成功從來不是靠一個超級模型獨自突破,而是靠規模化的平行訓練——數十億參數、數兆 Token、數千張 GPU。機器人也一樣:未來不是一台萬能機器人,而是百萬台機器人同時在模擬環境中學習,再將學到的能力部署到真實世界。數量戰勝質量,這才是「大平行」的真正含義。
要讓大平行理論運作,需要三個核心組件。Jim Fan 的團隊恰好都做了。
GR00T(Generalist Robot 00 Technology)是 NVIDIA 為人形機器人打造的基礎模型。過去三年,機器人界由 VLA(視覺語言動作模型)主導——本質上是在一個語言模型上面接一個動作輸出頭。
Jim Fan 一針見血地指出了問題:
"These models are really LVAs, because the most amount of parameters are dedicated to language. Language is first-class citizen, followed by vision and action. By design, VLAs are great at encoding knowledge and nouns, but not so much at physics and verbs."
他舉了一個經典例子:VLA 的原始論文展示的是「把可樂罐移到 Taylor Swift 的照片旁邊」——是的,機器人認出了 Taylor Swift,但這是「名詞能力」,不是「動詞能力」。你需要的是機器人理解重力、摩擦力、柔性物體的形變,而不是認識名人。
取代 VLA 的是一種全新架構:World Action Model(WAM,世界動作模型)。
Dream Zero 是 WAM 的第一個實作。它的核心能力是「做夢」——在執行動作之前,先在腦中模擬未來幾秒的場景,然後根據模擬結果決定動作。
"A moment of silence for our dear friend VLAs. They've served us well. Rest in peace. Long live World Action Models."
Dream Zero 需要在哪裡「做夢」?需要一個世界模型來提供夢境的素材。
運算 = 環境 = 數據。在傳統機器人訓練中,你需要真實機器人(硬體)在真實環境(場景)中收集真實數據(遙控操作)。三者都有物理瓶頸。Dream Dojo 的突破在於:用 GPU 運算直接生成訓練環境和數據。買更多 GPU 就等於擁有更多機器人、更多環境、更多數據。這就是為什麼 Jensen 說「買越多省越多」——這句話在機器人領域第一次成為字面上的事實。
機器人領域最大的痛點一直是數據。Jim Fan 用一張圖清楚呈現了數據策略的演進:
| 方式 | 天花板 | 問題 |
|---|---|---|
| 遙控操作(Teleoperation) | 24 小時/機器人/天 (實際約 3 小時) | 昂貴、緩慢、機器人常「鬧脾氣」;NVIDIA 首席科學家 Bill Dally 親自操控,可能是「史上最貴的遙控操作軌跡」 |
| 數據穿戴設備(UMI/DexOoi) | 數十萬小時 | 把機器人手直接戴在人手上收集數據,免去機器人本體;催生了兩家獨角獸 |
| 人類自我中心影片(Egocentric Video) | 數千萬小時 | 像 Tesla FSD 一樣,在背景中自動收集——人類日常活動本身就是訓練數據 |
Jim Fan 介紹的 EgoScale 系統令人驚嘆:
結果:用 99.9% 的人類日常影片 + 0.1% 的遙控操作,就能訓練出一個能分類卡片、操作注射器、摺疊衣物的高靈巧度機器人策略。這是訓練成本壓縮 10 倍以上的關鍵。
EgoScale 論文最震撼的發現:
機器人靈巧度存在 Neural Scaling Law——預訓練時數與驗證損失之間呈現乾淨的對數線性關係。這距離語言模型的原始 Neural Scaling Law 恰好六年。這意味著:只要持續增加人類影片的預訓練時數,機器人的靈巧度就會可預測地持續提升。數據飛輪一旦啟動,就是指數級的。
Jim Fan 還展示了一個極其優雅的流程:
這個流程的意義:iPhone 基本上變成了一個口袋世界掃描器。任何人都可以掃描自己的工作環境,讓機器人在模擬中學習如何在那個環境中工作。
Jim Fan 用《文明帝國》的科技樹來描述機器人的終局。他說自己的研究就像在解鎖遊戲成就。還剩三個成就,然後他就可以退休了。
在廣泛的活動範圍中,你無法分辨是人還是機器人在執行任務。重點是「單位能量輸入 vs 單位勞動輸出」——不需要跟醉漢比,但要達到正常人類的效率水平。
整個機器人艦隊可以像軟體一樣,透過 API 和命令行配置。Jim Fan 開玩笑說「有一天被 Opus 9.0 調度」。這將實現「暗工廠」——輸入設計的 Markdown 檔案,輸出完全組裝好的產品,全程無人;以及自動化濕實驗室,加速化學、生物、醫藥的科學發現。
機器人開始自己設計、改進、建造下一代自己——遠超人類所能。這是終局。
"Our generation was born too late to explore the earth, and too early to explore the stars. But we are born just in time to solve robotics."
Physical AGI 的本質定義:一個能夠學會「任何」物理任務的系統。不是針對特定任務優化的工業機械手臂,而是一個通用的、可以透過語言指令和少量示範就學會新任務的物理智能。這與 LLM 的 AGI 定義完全對稱——LLM AGI 是「能處理任何認知任務」,Physical AGI 是「能執行任何物理任務」。兩者結合,就是完整的 AGI。
Jim Fan 在演講中展示了一個看似平凡的場景:機器人用 22 自由度的雙手摺疊不同款式的衣物。而且只需要一次示範就能學會不同的摺法。
為什麼這很重要?因為摺衣服是機器人領域的「聖杯問題」之一。
如果機器人能摺衣服,它就能:
「摺衣服」不是終點,而是能力證明。它代表機器人已經跨越了從「剛性操作」到「柔性操作」的鴻溝。一旦柔性操作被解鎖,人類日常生活中 90% 的物理任務都在射程之內。Jim Fan 演講中展示的「一次示範學會新任務」(one-shot demonstration)更是關鍵——這意味著部署成本趨近於零。你不需要程式設計師,你只需要「做一次給它看」。
Jim Fan 的演講沒有直接提到台灣,但每一個論點都直指台灣的核心競爭力。
Jim Fan 的時間表給台灣的啟示非常清楚:
每一次重大的自動化革命,都遵循同一個模式:
效率極低,只能用在煤礦抽水(因為燃料在旁邊免費)。沒有人相信它能取代馬匹。
效率提升 3 倍,開始進入工廠。但仍然很貴,只有大企業用得起。
成本持續下降,火車、輪船、工廠全面採用。99% 的體力勞動最終由機器完成。
不是蒸汽機變「聰明」了,而是它變「便宜」了。成本曲線的陡降才是革命的觸發器。
訓練一次要數百萬美元,推理費用高昂,只有研究實驗室用得起。
每次對話成本降到幾美分。第一次讓普通人可以直接使用 AI。
推理成本已降至 2020 年的 1/1000 以下。AI 成為基礎設施,而非奢侈品。
Jim Fan 的 EgoScale 正在機器人領域複製這個曲線:
蒸汽機從紐科門到瓦特花了 57 年。LLM 從 AlexNet 到 ChatGPT 花了 10 年。機器人從遙控操作到 EgoScale 花了不到 3 年。每一輪自動化革命的加速度都在增加。因為新的革命可以站在前一個革命的肩膀上——機器人訓練直接使用了 LLM 的架構和方法論,而 LLM 又使用了深度學習的基礎設施。Jim Fan 的「大平行理論」不只是比喻,它是一個建立在歷史加速規律上的工程預測。
Jim Fan 的演講最清楚地揭示了一件事:NVIDIA 正在成為機器人時代的「賣鏟人」。他們不做機器人本體,他們做的是:
「Compute = Environment = Data」這個等式意味著:每一塊訓練機器人的 GPU 都是 NVIDIA 的營收。當全世界的機器人公司都在搶著訓練模型,NVIDIA 賣的不是機器人,而是訓練機器人的「水和電」。
EgoScale 的啟示:未來機器人公司的競爭優勢不在硬體,而在數據飛輪的轉速。
Jim Fan 描述的「Physical API」世界意味著:
對投資者的啟示:不要只投機器人硬體公司,更要投機器人的 AI 軟體和平台公司。
Jim Fan 特別提到 UMI(Universal Manipulation Interface)論文——一個「把機器人手直接戴在人手上」的極簡想法——催生了兩家獨角獸。這呼應了一個永恆的創業真理:最有價值的創新往往是最簡單的。不是更複雜的遙控操作系統,而是「乾脆不要遙控」。
| 產業 | 機器人影響 | 時間軸 |
|---|---|---|
| 倉儲物流 | 揀貨、分類、包裝全自動化 | 1-2 年 |
| 電子組裝 | 精密零件組裝、GPU 生產線 | 2-3 年 |
| 居家照護 | 老人照護、家務自動化 | 3-5 年 |
| 農業 | 採摘、分級、包裝 | 3-5 年 |
| 科學研究 | 自動化濕實驗室、藥物合成 | 5-10 年 |
路線圖已經清楚了。大平行理論不是假設,是已經在發生的事實。LLM 走過的每一步——預訓練、微調、RL、自動化研究——機器人都將跟隨。差別只在時間。
數據瓶頸正在被打破。從遙控操作到數據穿戴到人類影片,每一代都將數據規模提升 100-1000 倍。Neural Scaling Law 的發現證明:只要有數據,機器人就會持續變好。
2040 年前到達終局,但轉折點在 1-2 年內。物理圖靈測試可能 2-3 年內實現。機器人的「ChatGPT 時刻」——第一次讓普通人驚嘆「原來機器人可以這樣」——可能只在 1-2 年之後。
三篇文章,三個面向,一個結論:
| 篇章 | 講者 | 核心論點 | 行動窗口 |
|---|---|---|---|
| 第一篇:總論 | Sequoia 合夥人 | AI 是運算革命,AGI 已經到來,服務市場 10 兆美元 | 18 個月 |
| 第二篇:Software 3.0 | Andrej Karpathy | LLM 即電腦,可驗證性決定自動化速度,理解力無法外包 | 12 個月 |
| 第三篇:機器人終局(本文) | Jim Fan | 大平行理論,Physical AGI 藍圖,訓練成本壓縮 10 倍 | 1-3 年 |
AGI 不是未來,是現在。數位 AGI 正在重寫軟體(Karpathy),Physical AGI 正在重寫製造業(Jim Fan),而 Sequoia 的合夥人們已經在上面押注。
對你的意義是什麼?你不需要理解 Dream Zero 的架構或 Neural Scaling Law 的數學。你需要理解的是:你現在做的每一件事——寫程式碼、管理工廠、照顧老人、整理倉庫——都有一個 AI/機器人版本正在被訓練。問題不是「會不會發生」,而是「你在那個版本中的角色是什麼」。
18 個月。這是 Sequoia 給的窗口。這不是恐嚇,是邀請——邀請你現在就開始思考,開始行動。
"If you believe in robotics, robotics will believe in you."
系列主題:AGI 不是未來,是現在 —— 而你只有 18 個月的窗口