DeutschEnglish中文
中文 English ไทย
วิเคราะห์เชิงลึก Sequoia AI Ascent 2026 3/3

จุดจบของหุ่นยนต์ — ทฤษฎีการขนานใหญ่ของ Nvidia

แผนผัง Physical AGI ของ Jim Fan

งานวิจัยอิสระ | Akui Research Lab | 2026-05-02
ธีมซีรีส์: AGI ไม่ใช่อนาคต แต่คือปัจจุบัน -- และคุณเหลือเวลาแค่ 18 เดือน

ฤดูร้อนปี 2016 ชายร่างใหญ่ในเสื้อแจ็คเก็ตหนัง แบกแผ่นโลหะขนาดใหญ่เดินเข้าสำนักงาน OpenAI สลักข้อความว่า: "To Elon and the OpenAI team, for the future of computing and humanity." นั่นคือ DGX-1 เครื่องแรกของโลก เด็กฝึกงานชื่อ Jim Fan วิ่งขึ้นไปเซ็นชื่อ

สิบปีต่อมา เด็กฝึกงานคนนั้นยืนบนเวที Sequoia AI Ascent ประกาศว่าเทคโนโลยีหุ่นยนต์เข้าสู่ "สมรภูมิสุดท้าย" แล้ว
ข้อโต้แย้งของเขาน่าตกใจ: ไม่ใช่สร้างหุ่นยนต์ซูเปอร์ตัวเดียว แต่ให้หุ่นยนต์ล้านตัวเรียนรู้พร้อมกัน เหมือนที่ LLM ใช้ข้อความในอินเทอร์เน็ตเรียนรู้ภาษา หุ่นยนต์จะใช้วิดีโอชีวิตประจำวันของมนุษย์เรียนรู้การเคลื่อนไหวทางกายภาพทั้งหมด

และครั้งนี้ ต้นทุนการฝึกถูกบีบอัด 10 เท่า "ช่วงเวลา ChatGPT" ของหุ่นยนต์ อาจเหลือแค่ 1-2 ปี

บทคัดย่อ

Jim Fan หัวหน้าวิจัยหุ่นยนต์ของ NVIDIA เสนอ "ทฤษฎีการขนานใหญ่" (The Great Parallel) ใน Sequoia AI Ascent 2026: เทคโนโลยีหุ่นยนต์จะทำซ้ำเส้นทางความสำเร็จ 4 ขั้นตอนของ LLM อย่างสมบูรณ์ -- pre-training, fine-tuning, RL, automated research เขาแนะนำเทคโนโลยีสำคัญ 3 อย่าง: Dream Zero (World Action Model ให้หุ่นยนต์ "ฝัน" ก่อนลงมือ), EgoScale (ใช้วิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์แทนการบังคับทางไกล ค้นพบ Neural Scaling Law ของความคล่องแคล่วหุ่นยนต์), Dream Dojo (neural simulator ใช้ GPU แทนหุ่นยนต์จริงทำ RL) เขาคาดการณ์ว่าหุ่นยนต์จะปลดล็อคแผนผังเทคโนโลยีสุดท้ายก่อนปี 2040 และ "Physical Turing Test" -- ทำให้คุณแยกไม่ออกว่าคนหรือหุ่นยนต์กำลังปฏิบัติการ -- ใช้เวลาแค่ 2-3 ปี บทความนี้วิเคราะห์จากหลักการพื้นฐาน: สถาปัตยกรรมเทคนิค กลยุทธ์ข้อมูล ตรรกะธุรกิจ และบทเรียนสำหรับไต้หวัน

ทฤษฎีการขนานใหญ่ Physical AGI GR00T Dream Zero World Action Model EgoScale Neural Scaling Law Sim-to-Real Dream Dojo Cosmos Newton หุ่นยนต์มนุษย์
สารบัญ
  1. ทำไมไม่ใช่หุ่นยนต์ซูเปอร์ตัวเดียว? (ทฤษฎีการขนานใหญ่)
  2. ชุดเครื่องมือ 3 ชิ้นของ Nvidia: GR00T + Cosmos + Newton
  3. จากจำลองสู่ของจริง: ต้นทุนการฝึกบีบอัด 10 เท่า
  4. คำจำกัดความและกำหนดเวลาของ Physical AGI
  5. เมื่อหุ่นยนต์พับผ้าได้ -- นี่หมายความว่าอะไร?
  6. โอกาสและภัยคุกคามของอุตสาหกรรมการผลิตไต้หวัน
  7. บทเรียนจากประวัติศาสตร์ -- จากเครื่องจักรไอน้ำสู่หุ่นยนต์
  8. แรงบันดาลใจทางธุรกิจ -- ตรรกะการลงทุนในเศรษฐกิจหุ่นยนต์
  9. บทสรุป + อ่านซีรีส์ต่อ
  10. เอกสารอ้างอิง

1.ทำไมไม่ใช่หุ่นยนต์ซูเปอร์ตัวเดียว? (ทฤษฎีการขนานใหญ่)

หนัง sci-fi มักให้ภาพ: หุ่นยนต์มนุษย์ตัวเดียว เหมือน Terminator ทำทุกอย่างได้ แต่ Jim Fan บอกว่า นี่ผิดทิศทางอย่างสิ้นเชิง

มองย้อนเส้นทางความสำเร็จของ LLM เขาจัดเรียงการกระโดดเชิงฟังก์ชัน 4 ขั้น แต่ละขั้นห่างกันแค่ 6 ปี:

2020 — GPT-3 Pre-training

ทำนาย Token ถัดไป = เรียนรู้ "รูปร่าง" ของภาษา -- ไวยากรณ์ ตรรกะ โค้ดเป็นอย่างไร

2022 — InstructGPT Supervised Fine-tuning

จัดแนวจำลองไปสู่ "งานที่มีประโยชน์" -- จากความเป็นไปได้มหาศาลบีบอัดเป็นเอาต์พุตที่มนุษย์ต้องการ

2024 — โมเดลเชิงเหตุผล (o1)

ใช้ RL ก้าวข้าม imitation learning -- โมเดลเริ่ม "คิด" ไม่ใช่แค่พูดตาม

2026 — วิจัยอัตโนมัติ

เร่งทั้งวงจร ก้าวข้ามสิ่งที่มนุษย์ทำได้ -- AI เริ่มทำวิจัย AI ด้วยตัวเอง

ข้อมูลเชิงลึกหลักของ Jim Fan: 4 ขั้นตอนเหล่านี้สามารถย้ายไปสาขาหุ่นยนต์ได้อย่างสมบูรณ์ เขาเรียกมันว่า "ทฤษฎีการขนานใหญ่" (The Great Parallel)

หลักการพื้นฐาน

ทฤษฎีการขนานใหญ่: ถ้า LLM เรียนรู้ภาษาจากการทำนาย "คำถัดไป" หุ่นยนต์ก็เรียนรู้การเคลื่อนไหวจากการทำนาย "สถานะโลกกายภาพถัดไป" ได้ โครงสร้างคณิตศาสตร์พื้นฐานเหมือนกัน -- ทั้งคู่เป็นปัญหาการทำนายลำดับ ต่างแค่: LLM ทำนาย Token แบบ discrete หุ่นยนต์ทำนาย pixel และมุมข้อต่อแบบ continuous

เส้นทาง LLMเส้นทางขนานของหุ่นยนต์เทคโนโลยีหลัก
Pre-training (ทำนายคำถัดไป)Pre-training (ทำนายสถานะกายภาพถัดไป)World Model / Cosmos
Supervised fine-tuning (จัดแนวไปสู่เอาต์พุตที่มีประโยชน์)Action fine-tuning (จัดแนวไปสู่หุ่นยนต์จริง)GR00T / Dream Zero
RL reasoning (ก้าวข้ามการเลียนแบบ)RL ในตัวจำลองNewton / Dream Dojo
วิจัยอัตโนมัติวิจัยอัตโนมัติเชิงกายภาพหุ่นยนต์ออกแบบและสร้างรุ่นถัดไปของตัวเอง

"So as any self-respecting scientist would do, I copy homework and I give it a new name. I call it the Great Parallel."

— Jim Fan, Sequoia AI Ascent 2026

นี่ไม่ใช่การเปรียบเทียบ นี่คือแผนงานวิศวกรรมที่ปฏิบัติได้จริง Jim Fan ไม่ได้บอกว่า "หุ่นยนต์สักวันจะเหมือน ChatGPT" เขาบอกว่า "เรากำลังเดินบนเส้นทางเดียวกันแล้ว และรู้ว่าทุกโค้งอยู่ตรงไหน"

ข้อมูลเชิงลึกหลัก

ทำไมไม่ใช่หุ่นยนต์ซูเปอร์ตัวเดียว? เพราะความสำเร็จของ LLM ไม่เคยมาจากโมเดลซูเปอร์ตัวเดียวที่ก้าวข้ามเอง แต่มาจากการฝึกแบบขนานในระดับใหญ่ -- พารามิเตอร์หลายพันล้าน Token หลายล้านล้าน GPU หลายพัน หุ่นยนต์ก็เหมือนกัน: อนาคตไม่ใช่หุ่นยนต์อัจฉริยะตัวเดียว แต่เป็นหุ่นยนต์ล้านตัวเรียนรู้พร้อมกันในสภาพแวดล้อมจำลอง แล้วถ่ายทอดความสามารถไปสู่โลกจริง ปริมาณชนะคุณภาพ นี่คือความหมายที่แท้จริงของ "การขนานใหญ่"

2.ชุดเครื่องมือ 3 ชิ้นของ Nvidia: GR00T + Cosmos + Newton

เพื่อให้ทฤษฎีการขนานใหญ่ทำงานได้ ต้องมีส่วนประกอบหลัก 3 อย่าง ทีมของ Jim Fan สร้างไว้หมดแล้ว

1. GR00T — โมเดลพื้นฐานสำหรับหุ่นยนต์มนุษย์

GR00T (Generalist Robot 00 Technology) เป็น foundation model ที่ NVIDIA สร้างสำหรับหุ่นยนต์มนุษย์ ตลอด 3 ปีที่ผ่านมา วงการหุ่นยนต์ถูกครอบงำโดย VLA (Vision-Language-Action models) -- เป็นหลัก คือติดหัว action output บน language model

Jim Fan ชี้ปัญหาตรงจุด:

"These models are really LVAs, because the most amount of parameters are dedicated to language. Language is first-class citizen, followed by vision and action. By design, VLAs are great at encoding knowledge and nouns, but not so much at physics and verbs."

— Jim Fan

เขายกตัวอย่างคลาสสิก: paper ต้นฉบับของ VLA โชว์ "ย้ายกระป๋องโค้กไปข้าง รูป Taylor Swift" -- ใช่ หุ่นยนต์รู้จัก Taylor Swift แต่นี่คือ "ความสามารถด้านคำนาม" ไม่ใช่ "ความสามารถด้านคำกริยา" สิ่งที่คุณต้องการคือหุ่นยนต์ที่เข้าใจแรงโน้มถ่วง แรงเสียดทาน การเปลี่ยนรูปของวัตถุอ่อน ไม่ใช่รู้จักคนดัง

2. Dream Zero — World Action Model (WAM)

สิ่งที่แทนที่ VLA คือสถาปัตยกรรมใหม่ทั้งหมด: World Action Model (WAM)

Dream Zero เป็นการพัฒนาแรกของ WAM ความสามารถหลักคือ"การฝัน" -- ก่อนลงมือ จำลองฉากอนาคตไม่กี่วินาทีในหัวก่อน แล้วตัดสินใจเคลื่อนไหวจากผลจำลอง

กลไกหลัก
ถอดรหัส "สถานะโลกถัดไป" และ "การเคลื่อนไหวถัดไป" พร้อมกัน -- ภาพและการเคลื่อนไหวเป็นพลเมืองชั้นหนึ่งทั้งคู่
ความก้าวข้ามหลัก
Zero-shot generalization -- สามารถแก้ปัญหาการเคลื่อนไหวที่ไม่เคยเห็นในการฝึก
วิธีตรวจสอบ
ดู "ความฝัน" ของหุ่นยนต์ได้: ถ้าวิดีโอที่ทำนายถูกต้อง การเคลื่อนไหวก็ถูกต้อง ถ้าวิดีโอมีภาพหลอน การเคลื่อนไหวก็ผิด
การเปรียบเทียบประวัติศาสตร์
เหมือนยุค GPT-2 -- รูปร่างถูกแต่ยังไม่แม่นยำพอ การขยายขนาดจะนำมาซึ่งการเปลี่ยนแปลงเชิงคุณภาพ

"A moment of silence for our dear friend VLAs. They've served us well. Rest in peace. Long live World Action Models."

— Jim Fan

3. Cosmos + Newton — World Model และ Physics Engine

Dream Zero ต้อง "ฝัน" ที่ไหน? ต้องมี world model ให้วัตถุดิบสำหรับความฝัน

หลักการพื้นฐาน

การคำนวณ = สภาพแวดล้อม = ข้อมูล ในการฝึกหุ่นยนต์แบบเดิม คุณต้องมีหุ่นยนต์จริง (ฮาร์ดแวร์) ในสภาพแวดล้อมจริง (ฉาก) เก็บข้อมูลจริง (บังคับทางไกล) ทั้งสามมีคอขวดทางกายภาพ ความก้าวข้ามของ Dream Dojo: ใช้ GPU สร้างสภาพแวดล้อมและข้อมูลการฝึกโดยตรง ซื้อ GPU เพิ่ม = มีหุ่นยนต์มากขึ้น สภาพแวดล้อมมากขึ้น ข้อมูลมากขึ้น นี่คือเหตุผลที่ Jensen บอก "ซื้อยิ่งมากยิ่งประหยัด" -- ประโยคนี้ในสาขาหุ่นยนต์เป็นความจริงตามตัวอักษรเป็นครั้งแรก

3.จากจำลองสู่ของจริง: ต้นทุนการฝึกบีบอัด 10 เท่า

จุดเจ็บที่สุดของสาขาหุ่นยนต์คือข้อมูล Jim Fan ใช้ภาพเดียวแสดงวิวัฒนาการของกลยุทธ์ข้อมูล:

3 ยุคของการเก็บข้อมูล

วิธีเพดานปัญหา
บังคับทางไกล (Teleoperation)24 ชม./หุ่นยนต์/วัน
(จริงๆ ราว 3 ชม.)
แพง ช้า หุ่นยนต์ชอบ "ดื้อ" นักวิทยาศาสตร์หลักของ NVIDIA Bill Dally มาบังคับเอง อาจเป็น "วิถีบังคับทางไกลที่แพงที่สุดในประวัติศาสตร์"
อุปกรณ์สวมใส่ข้อมูล (UMI/DexOoi)หลายแสนชั่วโมงสวมมือหุ่นยนต์บนมือมนุษย์เก็บข้อมูลโดยตรง ไม่ต้องใช้ตัวหุ่นยนต์ สร้าง unicorn 2 บริษัท
วิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์ (Egocentric Video)หลายสิบล้านชั่วโมงเหมือน Tesla FSD เก็บข้อมูลเบื้องหลังอัตโนมัติ -- กิจกรรมประจำวันของมนุษย์เองก็คือข้อมูลฝึก

EgoScale: 99.9% วิดีโอมนุษย์ + 0.1% บังคับทางไกล

ระบบ EgoScale ที่ Jim Fan แนะนำน่าทึ่งมาก:

21,000 ชั่วโมง
วิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์สำหรับ pre-training (ไม่มีข้อมูลหุ่นยนต์เลย)
50 ชั่วโมง
ถุงมือข้อมูลความแม่นยำสูงสำหรับ fine-tuning
4 ชั่วโมง
ข้อมูลบังคับทางไกล (ไม่ถึง 0.1%)
22 องศาอิสระ
นโยบาย end-to-end ของหุ่นยนต์สองมือความคล่องแคล่วสูง

ผลลัพธ์: ใช้วิดีโอชีวิตประจำวันของมนุษย์ 99.9% + บังคับทางไกล 0.1% ฝึกนโยบายหุ่นยนต์ความคล่องแคล่วสูงที่แยกการ์ด ใช้หลอดฉีดยา พับเสื้อผ้าได้ นี่คือกุญแจสำคัญของการบีบอัดต้นทุนการฝึก 10 เท่าขึ้นไป

Neural Scaling Law ของความคล่องแคล่วหุ่นยนต์

การค้นพบที่สะเทือนที่สุดของ paper EgoScale:

การค้นพบสำคัญ

ความคล่องแคล่วของหุ่นยนต์มี Neural Scaling Law -- ชั่วโมง pre-training กับ validation loss มีความสัมพันธ์เชิงเส้นตรงบน log scale อย่างสะอาด นี่ห่างจาก Neural Scaling Law ต้นฉบับของ language model พอดี 6 ปี หมายความว่า: แค่เพิ่มชั่วโมง pre-training ด้วยวิดีโอมนุษย์ ความคล่องแคล่วของหุ่นยนต์ก็จะเพิ่มขึ้นอย่างคาดเดาได้อย่างต่อเนื่อง เมื่อ data flywheel เริ่มหมุน ก็เป็นแบบเอ็กซ์โพเนนเชียล

4.คำจำกัดความและกำหนดเวลาของ Physical AGI

Jim Fan ใช้ tech tree จากเกม Civilization อธิบายจุดจบของหุ่นยนต์ เขาบอกว่างานวิจัยของเขาเหมือนการปลดล็อค achievement ในเกม เหลืออีก 3 achievement แล้วเขาจะเกษียณได้

3 ไมล์สโตนสำคัญ

ไมล์สโตน 1: Physical Turing Test (ภายใน 2-3 ปี)

ในขอบเขตกิจกรรมที่กว้าง คุณแยกไม่ออกว่าคนหรือหุ่นยนต์กำลังทำงาน จุดสำคัญคือ "พลังงานต่อหน่วย vs แรงงานต่อหน่วย" -- ไม่ต้องเทียบกับคนเมา แต่ต้องถึงระดับประสิทธิภาพของมนุษย์ปกติ

ไมล์สโตน 2: Physical API

กองเรือหุ่นยนต์ทั้งหมดสามารถตั้งค่าผ่าน API และ command line เหมือนซอฟต์แวร์ Jim Fan ล้อว่า "สักวันจะถูก Opus 9.0 สั่ง" นี่จะทำให้ "โรงงานมืด" เป็นจริง -- input ไฟล์ Markdown ของการออกแบบ output ผลิตภัณฑ์ที่ประกอบเสร็จ ไม่มีคน และห้องปฏิบัติการเปียกอัตโนมัติ เร่งการค้นพบทางเคมี ชีววิทยา เภสัชกรรม

ไมล์สโตน 3: วิจัยอัตโนมัติเชิงกายภาพ (ก่อนปี 2040)

หุ่นยนต์เริ่มออกแบบ ปรับปรุง สร้างรุ่นถัดไปของตัวเอง -- เกินความสามารถของมนุษย์ นี่คือจุดจบ

14 ปี
จาก AlexNet (2012) ถึง AI Ascent 2026 เส้นทาง AI ดิจิทัล
14 ปี
Jim Fan ประมาณจาก 2026 ถึงจุดจบ Physical AI (2040) ระยะทางเท่ากัน
95%
ความมั่นใจของ Jim Fan ว่าจะถึงจุดจบก่อนปี 2040
เอ็กซ์โพเนนเชียล
เทคโนโลยีไม่ได้เดินหน้าเป็นเส้นตรง แต่เร่งแบบเอ็กซ์โพเนนเชียล

"Our generation was born too late to explore the earth, and too early to explore the stars. But we are born just in time to solve robotics."

— Jim Fan

5.เมื่อหุ่นยนต์พับผ้าได้ -- นี่หมายความว่าอะไร?

Jim Fan โชว์ฉากที่ดูธรรมดา: หุ่นยนต์ใช้มือ 22 องศาอิสระพับเสื้อผ้าหลายแบบ และต้องการการสาธิตแค่ครั้งเดียวก็เรียนรู้วิธีพับต่างๆ ได้

ทำไมสิ่งนี้สำคัญ? เพราะการพับผ้าเป็น "ปัญหาจอกศักดิ์สิทธิ์" ของสาขาหุ่นยนต์

ทำไมพับผ้าถึงยากขนาดนั้น?

ถ้าหุ่นยนต์พับผ้าได้ มันก็ทำสิ่งเหล่านี้ได้:

ฉากในบ้าน
  • จัดห้อง เก็บของ
  • เตรียมวัตถุดิบอาหาร
  • ดูแลผู้สูงอายุที่บ้าน (ใช้หลอดฉีดยา วัดความดัน)
  • ทำความสะอาด ล้างจาน จัดของเล็กๆ น้อยๆ
ฉากอุตสาหกรรม
  • ประกอบชิ้นส่วนอิเล็กทรอนิกส์แม่นยำ
  • หยิบและแยกของในคลังสินค้า
  • ตรวจคุณภาพและบรรจุภัณฑ์
  • ประกอบ GPU (กรณีศึกษาที่ Jim Fan โชว์จริง)
ความหมายเชิงลึก

"พับผ้า" ไม่ใช่จุดหมาย แต่เป็นหลักฐานพิสูจน์ความสามารถ มันแสดงว่าหุ่นยนต์ข้ามเหวจาก "การปฏิบัติการวัตถุแข็ง" สู่ "การปฏิบัติการวัตถุอ่อน" แล้ว เมื่อการปฏิบัติการวัตถุอ่อนถูกปลดล็อค งานกายภาพ 90% ในชีวิตประจำวันของมนุษย์อยู่ในระยะยิง "การสาธิตครั้งเดียวเรียนรู้งานใหม่" (one-shot demonstration) ที่ Jim Fan โชว์ยิ่งสำคัญ -- หมายความว่าต้นทุนการ deploy เข้าใกล้ศูนย์ ไม่ต้องมีโปรแกรมเมอร์ แค่ "ทำให้ดูครั้งเดียว"

6.โอกาสและภัยคุกคามของอุตสาหกรรมการผลิตไต้หวัน

Jim Fan ไม่ได้พูดถึงไต้หวันโดยตรง แต่ทุกประเด็นพุ่งตรงไปที่ขีดความสามารถหลักของไต้หวัน

โอกาส
  • ความต้องการชิประเบิด: neural simulator แบบ Dream Dojo ต้องการ GPU มหาศาล -- ทุกสนามฝึกหุ่นยนต์คือลูกค้าของ TSMC
  • ทางออกการขาดแรงงาน: ปัญหาขาดแรงงานของอุตสาหกรรมการผลิตไต้หวัน เป็นสิ่งที่หุ่นยนต์ถนัดที่สุดในการแก้
  • อัพเกรดการผลิตแม่นยำ: อุตสาหกรรมเครื่องจักรแม่นยำของไต้หวันเปลี่ยนเป็นซัพพลายเออร์ฮาร์ดแวร์หุ่นยนต์ได้
  • ข้อได้เปรียบผู้บุกเบิก: ถ้าโรงงานไต้หวันนำ Physical AGI มาใช้ก่อน จะรักษาขีดความสามารถการแข่งขันภาคการผลิตได้
ภัยคุกคาม
  • การผลิตกลับประเทศ: ถ้าหุ่นยนต์ทำให้ต้นทุนแรงงานเป็นศูนย์ การผลิตไม่ต้องอยู่ในพื้นที่ต้นทุนต่ำ -- สหรัฐฯ ผลิตเองได้
  • ชั้นกลางหายไป: มูลค่าของโมเดลรับจ้างผลิตของไต้หวันตั้งอยู่บน "คน + การจัดการ" เมื่อหุ่นยนต์แทนที่ทั้งสอง...
  • จีนไล่ตาม: จีนลงทุนมหาศาลในหุ่นยนต์มนุษย์ และมีตลาดใหญ่กว่าและฉากการใช้งานมากกว่า
  • การพึ่งพาเทคโนโลยี: โมเดล AI หลักและ framework การฝึกอยู่ในมือ NVIDIA/Google/OpenAI
คู่มือปฏิบัติการสำหรับไต้หวัน

ตารางเวลาของ Jim Fan ให้บทเรียนชัดเจนกับไต้หวัน:

  • หน้าต่าง 18 เดือน: Physical Turing Test มาถึงภายใน 2-3 ปี หมายความว่าต้องเริ่มวางตำแหน่งตั้งแต่ตอนนี้
  • จาก "รับจ้าง" เป็น "ผลิตอัจฉริยะ": นำ Omniverse และ Cosmos ของ NVIDIA มาสร้าง digital twin factory
  • ข้อมูลฝึกอยู่ในมือคุณ: วิดีโอสายการผลิต วิดีโอการปฏิบัติงานของพนักงานในโรงงานไต้หวัน เป็น "วิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์" ที่โมเดล EgoScale ต้องการ
  • เครื่องจักรแม่นยำปรับตัว: บริษัทอย่าง Hiwin, Delta ควรลงทุนในชิ้นส่วนสำคัญของฮาร์ดแวร์หุ่นยนต์มนุษย์ (actuator, sensor, มือคล่องแคล่ว)

7.บทเรียนจากประวัติศาสตร์ -- จากเครื่องจักรไอน้ำสู่หุ่นยนต์

ทุกการปฏิวัติออโตเมชันครั้งใหญ่ เป็นไปตามรูปแบบเดียวกัน:

รูปแบบประวัติศาสตร์: จาก "แพงเกินไป" เป็น "ถูกเกินไป"
1712 — เครื่องจักรไอน้ำ Newcomen

ประสิทธิภาพต่ำมาก ใช้ได้แค่สูบน้ำในเหมืองถ่านหิน (เพราะเชื้อเพลิงอยู่ข้างๆ ฟรี) ไม่มีใครเชื่อว่ามันจะแทนม้าได้

1769 — Watt ปรับปรุงเครื่องจักรไอน้ำ

ประสิทธิภาพเพิ่ม 3 เท่า เริ่มเข้าโรงงาน แต่ยังแพง มีแต่บริษัทใหญ่ใช้ได้

ศตวรรษที่ 19 — เครื่องจักรไอน้ำแพร่หลาย

ต้นทุนลดต่อเนื่อง รถไฟ เรือ โรงงานใช้ทั่ว งานกายภาพ 99% ในที่สุดทำโดยเครื่องจักร

จุดเปลี่ยน

ไม่ใช่เครื่องจักรไอน้ำ "ฉลาด" ขึ้น แต่มัน "ถูก" ลง เส้นโค้งต้นทุนที่ตกลงชันเป็นตัวจุดชนวนการปฏิวัติ

EgoScale ของ Jim Fan กำลังทำซ้ำเส้นโค้งนี้ในสาขาหุ่นยนต์:

ยุคบังคับทางไกล
ต้องใช้ 100% ข้อมูลหุ่นยนต์ = ต้นทุนหลายพันดอลลาร์ต่อชั่วโมง
ยุค EgoScale
ต้องใช้ 0.1% ข้อมูลหุ่นยนต์ = ต้นทุนบีบอัด 1000 เท่า
กฎของประวัติศาสตร์

เครื่องจักรไอน้ำจาก Newcomen ถึง Watt ใช้เวลา 57 ปี LLM จาก AlexNet ถึง ChatGPT ใช้ 10 ปี หุ่นยนต์จากบังคับทางไกลถึง EgoScale ไม่ถึง 3 ปี อัตราเร่งของแต่ละรอบการปฏิวัติออโตเมชันเพิ่มขึ้นเรื่อยๆ เพราะการปฏิวัติใหม่ยืนบนไหล่ของการปฏิวัติก่อนหน้า -- การฝึกหุ่นยนต์ใช้สถาปัตยกรรมและวิธีวิทยาของ LLM โดยตรง และ LLM ใช้โครงสร้างพื้นฐานของ deep learning "ทฤษฎีการขนานใหญ่" ของ Jim Fan ไม่ใช่แค่อุปมา แต่เป็นการทำนายเชิงวิศวกรรมที่ตั้งอยู่บนกฎแห่งการเร่งตัวทางประวัติศาสตร์

8.แรงบันดาลใจทางธุรกิจ -- ตรรกะการลงทุนในเศรษฐกิจหุ่นยนต์

1. คนขายจอบเสียมชนะ

ตรรกะการลงทุน #1: ชั้นโครงสร้างพื้นฐาน

การบรรยายของ Jim Fan เปิดเผยสิ่งหนึ่งอย่างชัดเจน: NVIDIA กำลังเป็น "คนขายจอบเสียม" ของยุคหุ่นยนต์ พวกเขาไม่ทำตัวหุ่นยนต์ พวกเขาทำ:

  • โครงสร้างพื้นฐานการฝึก: GPU + Omniverse + Cosmos = แพลตฟอร์มครบชุดสำหรับฝึกหุ่นยนต์
  • ชั้นโมเดล: GR00T + Dream Zero = foundation model ที่บริษัทหุ่นยนต์ทุกแห่งต้องใช้
  • สภาพแวดล้อมจำลอง: Dream Dojo + Newton = สนามฝึกเสมือนที่แทนหุ่นยนต์จริงล้านตัว

2. ข้อมูลคือคูน้ำป้อมปราการ

ตรรกะการลงทุน #2: Data Flywheel

บทเรียนจาก EgoScale: อนาคตข้อได้เปรียบการแข่งขันของบริษัทหุ่นยนต์ไม่ได้อยู่ที่ฮาร์ดแวร์ แต่อยู่ที่ความเร็วของ data flywheel

  • โมเดล Tesla: รถล้านคันเก็บข้อมูลขับรถทุกวันอัตโนมัติ Jim Fan ใช้สิ่งนี้เป็นมาตรฐานสำหรับกลยุทธ์ข้อมูลหุ่นยนต์อย่างชัดเจน
  • Deploy = ฝึก: หุ่นยนต์ทุกตัวที่ deploy คือตัวเก็บข้อมูล deploy มากขึ้น ข้อมูลมากขึ้น โมเดลดีขึ้น deploy ได้มากขึ้น
  • ข้อได้เปรียบผู้บุกเบิกมหาศาล: บริษัทแรกที่เริ่มหมุน flywheel จะถ่างช่องว่างด้วยความเร็วเอ็กซ์โพเนนเชียล

3. ซอฟต์แวร์กินฮาร์ดแวร์อีกครั้ง

ตรรกะการลงทุน #3: Software-Defined Robot

"Physical API" ที่ Jim Fan อธิบายหมายความว่า:

  • ฮาร์ดแวร์หุ่นยนต์จะกลายเป็นสินค้าโภคภัณฑ์ (เหมือนฮาร์ดแวร์เซิร์ฟเวอร์ปัจจุบัน)
  • มูลค่ากระจุกอยู่ที่ชั้นซอฟต์แวร์/โมเดล (เหมือนบริการคลาวด์ปัจจุบัน)
  • "โรงงานมืด" (Dark Factories) = "serverless architecture" เวอร์ชันหุ่นยนต์ -- input คำสั่ง output ผลิตภัณฑ์ ตรงกลางเป็น AI ทั้งหมด

5 อุตสาหกรรมที่ได้ประโยชน์

อุตสาหกรรมผลกระทบจากหุ่นยนต์กรอบเวลา
คลังสินค้าและโลจิสติกส์หยิบ แยก บรรจุอัตโนมัติเต็มรูปแบบ1-2 ปี
ประกอบอิเล็กทรอนิกส์ประกอบชิ้นส่วนแม่นยำ สายการผลิต GPU2-3 ปี
ดูแลผู้สูงอายุที่บ้านดูแลผู้สูงอายุ งานบ้านอัตโนมัติ3-5 ปี
เกษตรกรรมเก็บเกี่ยว คัดเกรด บรรจุ3-5 ปี
การวิจัยทางวิทยาศาสตร์ห้องปฏิบัติการเปียกอัตโนมัติ สังเคราะห์ยา5-10 ปี

9.บทสรุป + อ่านซีรีส์ต่อ

3 ข้อความหลักของการบรรยาย Jim Fan

ข้อความที่ 1

แผนงานชัดเจนแล้ว ทฤษฎีการขนานใหญ่ไม่ใช่สมมติฐาน แต่เป็นข้อเท็จจริงที่กำลังเกิดขึ้น LLM เดินผ่านทุกก้าว -- pre-training, fine-tuning, RL, วิจัยอัตโนมัติ -- หุ่นยนต์จะตามรอย ต่างแค่เวลา

ข้อความที่ 2

คอขวดข้อมูลกำลังถูกทำลาย จากบังคับทางไกลสู่อุปกรณ์สวมใส่สู่วิดีโอมนุษย์ แต่ละรุ่นเพิ่มปริมาณข้อมูล 100-1000 เท่า การค้นพบ Neural Scaling Law พิสูจน์ว่า: แค่มีข้อมูล หุ่นยนต์จะดีขึ้นเรื่อยๆ

ข้อความที่ 3

ถึงจุดจบก่อนปี 2040 แต่จุดเปลี่ยนอยู่ใน 1-2 ปี Physical Turing Test อาจเป็นจริงภายใน 2-3 ปี "ช่วงเวลา ChatGPT" ของหุ่นยนต์ -- ครั้งแรกที่คนธรรมดาทึ่งว่า "หุ่นยนต์ทำแบบนี้ได้ด้วย" -- อาจอยู่แค่ 1-2 ปีข้างหน้า

สรุปซีรีส์ Sequoia AI Ascent 2026

3 บทความ 3 มุมมอง 1 บทสรุป:

บทความผู้บรรยายประเด็นหลักหน้าต่างปฏิบัติการ
ตอนที่ 1: ภาพรวมSequoia PartnersAI คือการปฏิวัติการคำนวณ AGI มาถึงแล้ว ตลาดบริการ 10 ล้านล้านดอลลาร์18 เดือน
ตอนที่ 2: Software 3.0Andrej KarpathyLLM คือคอมพิวเตอร์ ความสามารถในการตรวจสอบกำหนดความเร็วออโตเมชัน ความเข้าใจ outsource ไม่ได้12 เดือน
ตอนที่ 3: จุดจบของหุ่นยนต์ (บทความนี้)Jim Fanทฤษฎีการขนานใหญ่ แผนผัง Physical AGI ต้นทุนการฝึกบีบอัด 10 เท่า1-3 ปี
สรุปซีรีส์

AGI ไม่ใช่อนาคต แต่คือปัจจุบัน AGI ดิจิทัลกำลังเขียนซอฟต์แวร์ใหม่ (Karpathy) Physical AGI กำลังเขียนอุตสาหกรรมการผลิตใหม่ (Jim Fan) และพาร์ทเนอร์ของ Sequoia วางเดิมพันแล้ว

สำหรับคุณหมายความว่าอะไร? คุณไม่ต้องเข้าใจสถาปัตยกรรม Dream Zero หรือคณิตศาสตร์ของ Neural Scaling Law สิ่งที่คุณต้องเข้าใจคือ: ทุกสิ่งที่คุณทำตอนนี้ -- เขียนโค้ด บริหารโรงงาน ดูแลผู้สูงอายุ จัดคลังสินค้า -- มี AI/หุ่นยนต์ version กำลังถูกฝึกอยู่ คำถามไม่ใช่ "จะเกิดขึ้นไหม" แต่คือ "ใน version นั้น บทบาทของคุณคืออะไร"

18 เดือน นี่คือหน้าต่างที่ Sequoia ให้ นี่ไม่ใช่การข่มขู่ แต่เป็นคำเชิญ -- เชิญให้คุณเริ่มคิด เริ่มลงมือทำตั้งแต่ตอนนี้

"If you believe in robotics, robotics will believe in you."

— Jim Fan, Sequoia AI Ascent 2026
ซีรีส์วิเคราะห์เชิงลึก Sequoia AI Ascent 2026

ธีมซีรีส์: AGI ไม่ใช่อนาคต แต่คือปัจจุบัน -- และคุณเหลือเวลาแค่ 18 เดือน

  1. ตอนที่ 1: AGI มาถึงแล้ว -- แถลงการณ์ 3 ประการของ Sequoia (วิเคราะห์เชิงลึก Sequoia Keynote)
  2. ตอนที่ 2: Software 3.0 -- เมื่อ LLM กลายเป็นคอมพิวเตอร์ (วิเคราะห์เชิงลึกการบรรยาย Karpathy)
  3. ตอนที่ 3: จุดจบของหุ่นยนต์ -- ทฤษฎีการขนานใหญ่ของ Nvidia (บทความนี้)

เอกสารอ้างอิง

  1. Jim Fan, "Nvidia's Jim Fan on the End Game for Robotics," Sequoia AI Ascent 2026, April 2026. YouTube
  2. NVIDIA, "Project GR00T: Foundation Model for Humanoid Robots," NVIDIA Research, 2024-2026.
  3. NVIDIA, "Cosmos: World Foundation Models," NVIDIA Research, 2025.
  4. NVIDIA, "Newton: Physics Engine for Robotics Simulation," NVIDIA, 2025.
  5. NVIDIA, "Dream Zero: World Action Models for Robotics," NVIDIA Research, 2026.
  6. NVIDIA, "EgoScale: Egocentric Video Pre-training for Dexterous Manipulation," NVIDIA Research, 2026.
  7. NVIDIA, "Dream Dojo: Neural Simulator for Robot Reinforcement Learning," NVIDIA Research, 2026.
  8. Chi et al., "Universal Manipulation Interface (UMI)," RSS 2024.
  9. Brohan et al., "RT-2: Vision-Language-Action Models," Google DeepMind, 2023.
  10. Kaplan et al., "Scaling Laws for Neural Language Models," OpenAI, 2020.
  11. Sequoia Capital, "AI Ascent 2026 Keynote," April 2026. YouTube
  12. Andrej Karpathy, "From Vibe Coding to Agentic Engineering," Sequoia AI Ascent 2026. YouTube