แผนผัง Physical AGI ของ Jim Fan
Jim Fan หัวหน้าวิจัยหุ่นยนต์ของ NVIDIA เสนอ "ทฤษฎีการขนานใหญ่" (The Great Parallel) ใน Sequoia AI Ascent 2026: เทคโนโลยีหุ่นยนต์จะทำซ้ำเส้นทางความสำเร็จ 4 ขั้นตอนของ LLM อย่างสมบูรณ์ -- pre-training, fine-tuning, RL, automated research เขาแนะนำเทคโนโลยีสำคัญ 3 อย่าง: Dream Zero (World Action Model ให้หุ่นยนต์ "ฝัน" ก่อนลงมือ), EgoScale (ใช้วิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์แทนการบังคับทางไกล ค้นพบ Neural Scaling Law ของความคล่องแคล่วหุ่นยนต์), Dream Dojo (neural simulator ใช้ GPU แทนหุ่นยนต์จริงทำ RL) เขาคาดการณ์ว่าหุ่นยนต์จะปลดล็อคแผนผังเทคโนโลยีสุดท้ายก่อนปี 2040 และ "Physical Turing Test" -- ทำให้คุณแยกไม่ออกว่าคนหรือหุ่นยนต์กำลังปฏิบัติการ -- ใช้เวลาแค่ 2-3 ปี บทความนี้วิเคราะห์จากหลักการพื้นฐาน: สถาปัตยกรรมเทคนิค กลยุทธ์ข้อมูล ตรรกะธุรกิจ และบทเรียนสำหรับไต้หวัน
หนัง sci-fi มักให้ภาพ: หุ่นยนต์มนุษย์ตัวเดียว เหมือน Terminator ทำทุกอย่างได้ แต่ Jim Fan บอกว่า นี่ผิดทิศทางอย่างสิ้นเชิง
มองย้อนเส้นทางความสำเร็จของ LLM เขาจัดเรียงการกระโดดเชิงฟังก์ชัน 4 ขั้น แต่ละขั้นห่างกันแค่ 6 ปี:
ทำนาย Token ถัดไป = เรียนรู้ "รูปร่าง" ของภาษา -- ไวยากรณ์ ตรรกะ โค้ดเป็นอย่างไร
จัดแนวจำลองไปสู่ "งานที่มีประโยชน์" -- จากความเป็นไปได้มหาศาลบีบอัดเป็นเอาต์พุตที่มนุษย์ต้องการ
ใช้ RL ก้าวข้าม imitation learning -- โมเดลเริ่ม "คิด" ไม่ใช่แค่พูดตาม
เร่งทั้งวงจร ก้าวข้ามสิ่งที่มนุษย์ทำได้ -- AI เริ่มทำวิจัย AI ด้วยตัวเอง
ข้อมูลเชิงลึกหลักของ Jim Fan: 4 ขั้นตอนเหล่านี้สามารถย้ายไปสาขาหุ่นยนต์ได้อย่างสมบูรณ์ เขาเรียกมันว่า "ทฤษฎีการขนานใหญ่" (The Great Parallel)
ทฤษฎีการขนานใหญ่: ถ้า LLM เรียนรู้ภาษาจากการทำนาย "คำถัดไป" หุ่นยนต์ก็เรียนรู้การเคลื่อนไหวจากการทำนาย "สถานะโลกกายภาพถัดไป" ได้ โครงสร้างคณิตศาสตร์พื้นฐานเหมือนกัน -- ทั้งคู่เป็นปัญหาการทำนายลำดับ ต่างแค่: LLM ทำนาย Token แบบ discrete หุ่นยนต์ทำนาย pixel และมุมข้อต่อแบบ continuous
| เส้นทาง LLM | เส้นทางขนานของหุ่นยนต์ | เทคโนโลยีหลัก |
|---|---|---|
| Pre-training (ทำนายคำถัดไป) | Pre-training (ทำนายสถานะกายภาพถัดไป) | World Model / Cosmos |
| Supervised fine-tuning (จัดแนวไปสู่เอาต์พุตที่มีประโยชน์) | Action fine-tuning (จัดแนวไปสู่หุ่นยนต์จริง) | GR00T / Dream Zero |
| RL reasoning (ก้าวข้ามการเลียนแบบ) | RL ในตัวจำลอง | Newton / Dream Dojo |
| วิจัยอัตโนมัติ | วิจัยอัตโนมัติเชิงกายภาพ | หุ่นยนต์ออกแบบและสร้างรุ่นถัดไปของตัวเอง |
"So as any self-respecting scientist would do, I copy homework and I give it a new name. I call it the Great Parallel."
นี่ไม่ใช่การเปรียบเทียบ นี่คือแผนงานวิศวกรรมที่ปฏิบัติได้จริง Jim Fan ไม่ได้บอกว่า "หุ่นยนต์สักวันจะเหมือน ChatGPT" เขาบอกว่า "เรากำลังเดินบนเส้นทางเดียวกันแล้ว และรู้ว่าทุกโค้งอยู่ตรงไหน"
ทำไมไม่ใช่หุ่นยนต์ซูเปอร์ตัวเดียว? เพราะความสำเร็จของ LLM ไม่เคยมาจากโมเดลซูเปอร์ตัวเดียวที่ก้าวข้ามเอง แต่มาจากการฝึกแบบขนานในระดับใหญ่ -- พารามิเตอร์หลายพันล้าน Token หลายล้านล้าน GPU หลายพัน หุ่นยนต์ก็เหมือนกัน: อนาคตไม่ใช่หุ่นยนต์อัจฉริยะตัวเดียว แต่เป็นหุ่นยนต์ล้านตัวเรียนรู้พร้อมกันในสภาพแวดล้อมจำลอง แล้วถ่ายทอดความสามารถไปสู่โลกจริง ปริมาณชนะคุณภาพ นี่คือความหมายที่แท้จริงของ "การขนานใหญ่"
เพื่อให้ทฤษฎีการขนานใหญ่ทำงานได้ ต้องมีส่วนประกอบหลัก 3 อย่าง ทีมของ Jim Fan สร้างไว้หมดแล้ว
GR00T (Generalist Robot 00 Technology) เป็น foundation model ที่ NVIDIA สร้างสำหรับหุ่นยนต์มนุษย์ ตลอด 3 ปีที่ผ่านมา วงการหุ่นยนต์ถูกครอบงำโดย VLA (Vision-Language-Action models) -- เป็นหลัก คือติดหัว action output บน language model
Jim Fan ชี้ปัญหาตรงจุด:
"These models are really LVAs, because the most amount of parameters are dedicated to language. Language is first-class citizen, followed by vision and action. By design, VLAs are great at encoding knowledge and nouns, but not so much at physics and verbs."
เขายกตัวอย่างคลาสสิก: paper ต้นฉบับของ VLA โชว์ "ย้ายกระป๋องโค้กไปข้าง รูป Taylor Swift" -- ใช่ หุ่นยนต์รู้จัก Taylor Swift แต่นี่คือ "ความสามารถด้านคำนาม" ไม่ใช่ "ความสามารถด้านคำกริยา" สิ่งที่คุณต้องการคือหุ่นยนต์ที่เข้าใจแรงโน้มถ่วง แรงเสียดทาน การเปลี่ยนรูปของวัตถุอ่อน ไม่ใช่รู้จักคนดัง
สิ่งที่แทนที่ VLA คือสถาปัตยกรรมใหม่ทั้งหมด: World Action Model (WAM)
Dream Zero เป็นการพัฒนาแรกของ WAM ความสามารถหลักคือ"การฝัน" -- ก่อนลงมือ จำลองฉากอนาคตไม่กี่วินาทีในหัวก่อน แล้วตัดสินใจเคลื่อนไหวจากผลจำลอง
"A moment of silence for our dear friend VLAs. They've served us well. Rest in peace. Long live World Action Models."
Dream Zero ต้อง "ฝัน" ที่ไหน? ต้องมี world model ให้วัตถุดิบสำหรับความฝัน
การคำนวณ = สภาพแวดล้อม = ข้อมูล ในการฝึกหุ่นยนต์แบบเดิม คุณต้องมีหุ่นยนต์จริง (ฮาร์ดแวร์) ในสภาพแวดล้อมจริง (ฉาก) เก็บข้อมูลจริง (บังคับทางไกล) ทั้งสามมีคอขวดทางกายภาพ ความก้าวข้ามของ Dream Dojo: ใช้ GPU สร้างสภาพแวดล้อมและข้อมูลการฝึกโดยตรง ซื้อ GPU เพิ่ม = มีหุ่นยนต์มากขึ้น สภาพแวดล้อมมากขึ้น ข้อมูลมากขึ้น นี่คือเหตุผลที่ Jensen บอก "ซื้อยิ่งมากยิ่งประหยัด" -- ประโยคนี้ในสาขาหุ่นยนต์เป็นความจริงตามตัวอักษรเป็นครั้งแรก
จุดเจ็บที่สุดของสาขาหุ่นยนต์คือข้อมูล Jim Fan ใช้ภาพเดียวแสดงวิวัฒนาการของกลยุทธ์ข้อมูล:
| วิธี | เพดาน | ปัญหา |
|---|---|---|
| บังคับทางไกล (Teleoperation) | 24 ชม./หุ่นยนต์/วัน (จริงๆ ราว 3 ชม.) | แพง ช้า หุ่นยนต์ชอบ "ดื้อ" นักวิทยาศาสตร์หลักของ NVIDIA Bill Dally มาบังคับเอง อาจเป็น "วิถีบังคับทางไกลที่แพงที่สุดในประวัติศาสตร์" |
| อุปกรณ์สวมใส่ข้อมูล (UMI/DexOoi) | หลายแสนชั่วโมง | สวมมือหุ่นยนต์บนมือมนุษย์เก็บข้อมูลโดยตรง ไม่ต้องใช้ตัวหุ่นยนต์ สร้าง unicorn 2 บริษัท |
| วิดีโอมุมมองบุคคลที่หนึ่งของมนุษย์ (Egocentric Video) | หลายสิบล้านชั่วโมง | เหมือน Tesla FSD เก็บข้อมูลเบื้องหลังอัตโนมัติ -- กิจกรรมประจำวันของมนุษย์เองก็คือข้อมูลฝึก |
ระบบ EgoScale ที่ Jim Fan แนะนำน่าทึ่งมาก:
ผลลัพธ์: ใช้วิดีโอชีวิตประจำวันของมนุษย์ 99.9% + บังคับทางไกล 0.1% ฝึกนโยบายหุ่นยนต์ความคล่องแคล่วสูงที่แยกการ์ด ใช้หลอดฉีดยา พับเสื้อผ้าได้ นี่คือกุญแจสำคัญของการบีบอัดต้นทุนการฝึก 10 เท่าขึ้นไป
การค้นพบที่สะเทือนที่สุดของ paper EgoScale:
ความคล่องแคล่วของหุ่นยนต์มี Neural Scaling Law -- ชั่วโมง pre-training กับ validation loss มีความสัมพันธ์เชิงเส้นตรงบน log scale อย่างสะอาด นี่ห่างจาก Neural Scaling Law ต้นฉบับของ language model พอดี 6 ปี หมายความว่า: แค่เพิ่มชั่วโมง pre-training ด้วยวิดีโอมนุษย์ ความคล่องแคล่วของหุ่นยนต์ก็จะเพิ่มขึ้นอย่างคาดเดาได้อย่างต่อเนื่อง เมื่อ data flywheel เริ่มหมุน ก็เป็นแบบเอ็กซ์โพเนนเชียล
Jim Fan ใช้ tech tree จากเกม Civilization อธิบายจุดจบของหุ่นยนต์ เขาบอกว่างานวิจัยของเขาเหมือนการปลดล็อค achievement ในเกม เหลืออีก 3 achievement แล้วเขาจะเกษียณได้
ในขอบเขตกิจกรรมที่กว้าง คุณแยกไม่ออกว่าคนหรือหุ่นยนต์กำลังทำงาน จุดสำคัญคือ "พลังงานต่อหน่วย vs แรงงานต่อหน่วย" -- ไม่ต้องเทียบกับคนเมา แต่ต้องถึงระดับประสิทธิภาพของมนุษย์ปกติ
กองเรือหุ่นยนต์ทั้งหมดสามารถตั้งค่าผ่าน API และ command line เหมือนซอฟต์แวร์ Jim Fan ล้อว่า "สักวันจะถูก Opus 9.0 สั่ง" นี่จะทำให้ "โรงงานมืด" เป็นจริง -- input ไฟล์ Markdown ของการออกแบบ output ผลิตภัณฑ์ที่ประกอบเสร็จ ไม่มีคน และห้องปฏิบัติการเปียกอัตโนมัติ เร่งการค้นพบทางเคมี ชีววิทยา เภสัชกรรม
หุ่นยนต์เริ่มออกแบบ ปรับปรุง สร้างรุ่นถัดไปของตัวเอง -- เกินความสามารถของมนุษย์ นี่คือจุดจบ
"Our generation was born too late to explore the earth, and too early to explore the stars. But we are born just in time to solve robotics."
Jim Fan โชว์ฉากที่ดูธรรมดา: หุ่นยนต์ใช้มือ 22 องศาอิสระพับเสื้อผ้าหลายแบบ และต้องการการสาธิตแค่ครั้งเดียวก็เรียนรู้วิธีพับต่างๆ ได้
ทำไมสิ่งนี้สำคัญ? เพราะการพับผ้าเป็น "ปัญหาจอกศักดิ์สิทธิ์" ของสาขาหุ่นยนต์
ถ้าหุ่นยนต์พับผ้าได้ มันก็ทำสิ่งเหล่านี้ได้:
"พับผ้า" ไม่ใช่จุดหมาย แต่เป็นหลักฐานพิสูจน์ความสามารถ มันแสดงว่าหุ่นยนต์ข้ามเหวจาก "การปฏิบัติการวัตถุแข็ง" สู่ "การปฏิบัติการวัตถุอ่อน" แล้ว เมื่อการปฏิบัติการวัตถุอ่อนถูกปลดล็อค งานกายภาพ 90% ในชีวิตประจำวันของมนุษย์อยู่ในระยะยิง "การสาธิตครั้งเดียวเรียนรู้งานใหม่" (one-shot demonstration) ที่ Jim Fan โชว์ยิ่งสำคัญ -- หมายความว่าต้นทุนการ deploy เข้าใกล้ศูนย์ ไม่ต้องมีโปรแกรมเมอร์ แค่ "ทำให้ดูครั้งเดียว"
Jim Fan ไม่ได้พูดถึงไต้หวันโดยตรง แต่ทุกประเด็นพุ่งตรงไปที่ขีดความสามารถหลักของไต้หวัน
ตารางเวลาของ Jim Fan ให้บทเรียนชัดเจนกับไต้หวัน:
ทุกการปฏิวัติออโตเมชันครั้งใหญ่ เป็นไปตามรูปแบบเดียวกัน:
ประสิทธิภาพต่ำมาก ใช้ได้แค่สูบน้ำในเหมืองถ่านหิน (เพราะเชื้อเพลิงอยู่ข้างๆ ฟรี) ไม่มีใครเชื่อว่ามันจะแทนม้าได้
ประสิทธิภาพเพิ่ม 3 เท่า เริ่มเข้าโรงงาน แต่ยังแพง มีแต่บริษัทใหญ่ใช้ได้
ต้นทุนลดต่อเนื่อง รถไฟ เรือ โรงงานใช้ทั่ว งานกายภาพ 99% ในที่สุดทำโดยเครื่องจักร
ไม่ใช่เครื่องจักรไอน้ำ "ฉลาด" ขึ้น แต่มัน "ถูก" ลง เส้นโค้งต้นทุนที่ตกลงชันเป็นตัวจุดชนวนการปฏิวัติ
EgoScale ของ Jim Fan กำลังทำซ้ำเส้นโค้งนี้ในสาขาหุ่นยนต์:
เครื่องจักรไอน้ำจาก Newcomen ถึง Watt ใช้เวลา 57 ปี LLM จาก AlexNet ถึง ChatGPT ใช้ 10 ปี หุ่นยนต์จากบังคับทางไกลถึง EgoScale ไม่ถึง 3 ปี อัตราเร่งของแต่ละรอบการปฏิวัติออโตเมชันเพิ่มขึ้นเรื่อยๆ เพราะการปฏิวัติใหม่ยืนบนไหล่ของการปฏิวัติก่อนหน้า -- การฝึกหุ่นยนต์ใช้สถาปัตยกรรมและวิธีวิทยาของ LLM โดยตรง และ LLM ใช้โครงสร้างพื้นฐานของ deep learning "ทฤษฎีการขนานใหญ่" ของ Jim Fan ไม่ใช่แค่อุปมา แต่เป็นการทำนายเชิงวิศวกรรมที่ตั้งอยู่บนกฎแห่งการเร่งตัวทางประวัติศาสตร์
การบรรยายของ Jim Fan เปิดเผยสิ่งหนึ่งอย่างชัดเจน: NVIDIA กำลังเป็น "คนขายจอบเสียม" ของยุคหุ่นยนต์ พวกเขาไม่ทำตัวหุ่นยนต์ พวกเขาทำ:
บทเรียนจาก EgoScale: อนาคตข้อได้เปรียบการแข่งขันของบริษัทหุ่นยนต์ไม่ได้อยู่ที่ฮาร์ดแวร์ แต่อยู่ที่ความเร็วของ data flywheel
"Physical API" ที่ Jim Fan อธิบายหมายความว่า:
| อุตสาหกรรม | ผลกระทบจากหุ่นยนต์ | กรอบเวลา |
|---|---|---|
| คลังสินค้าและโลจิสติกส์ | หยิบ แยก บรรจุอัตโนมัติเต็มรูปแบบ | 1-2 ปี |
| ประกอบอิเล็กทรอนิกส์ | ประกอบชิ้นส่วนแม่นยำ สายการผลิต GPU | 2-3 ปี |
| ดูแลผู้สูงอายุที่บ้าน | ดูแลผู้สูงอายุ งานบ้านอัตโนมัติ | 3-5 ปี |
| เกษตรกรรม | เก็บเกี่ยว คัดเกรด บรรจุ | 3-5 ปี |
| การวิจัยทางวิทยาศาสตร์ | ห้องปฏิบัติการเปียกอัตโนมัติ สังเคราะห์ยา | 5-10 ปี |
แผนงานชัดเจนแล้ว ทฤษฎีการขนานใหญ่ไม่ใช่สมมติฐาน แต่เป็นข้อเท็จจริงที่กำลังเกิดขึ้น LLM เดินผ่านทุกก้าว -- pre-training, fine-tuning, RL, วิจัยอัตโนมัติ -- หุ่นยนต์จะตามรอย ต่างแค่เวลา
คอขวดข้อมูลกำลังถูกทำลาย จากบังคับทางไกลสู่อุปกรณ์สวมใส่สู่วิดีโอมนุษย์ แต่ละรุ่นเพิ่มปริมาณข้อมูล 100-1000 เท่า การค้นพบ Neural Scaling Law พิสูจน์ว่า: แค่มีข้อมูล หุ่นยนต์จะดีขึ้นเรื่อยๆ
ถึงจุดจบก่อนปี 2040 แต่จุดเปลี่ยนอยู่ใน 1-2 ปี Physical Turing Test อาจเป็นจริงภายใน 2-3 ปี "ช่วงเวลา ChatGPT" ของหุ่นยนต์ -- ครั้งแรกที่คนธรรมดาทึ่งว่า "หุ่นยนต์ทำแบบนี้ได้ด้วย" -- อาจอยู่แค่ 1-2 ปีข้างหน้า
3 บทความ 3 มุมมอง 1 บทสรุป:
| บทความ | ผู้บรรยาย | ประเด็นหลัก | หน้าต่างปฏิบัติการ |
|---|---|---|---|
| ตอนที่ 1: ภาพรวม | Sequoia Partners | AI คือการปฏิวัติการคำนวณ AGI มาถึงแล้ว ตลาดบริการ 10 ล้านล้านดอลลาร์ | 18 เดือน |
| ตอนที่ 2: Software 3.0 | Andrej Karpathy | LLM คือคอมพิวเตอร์ ความสามารถในการตรวจสอบกำหนดความเร็วออโตเมชัน ความเข้าใจ outsource ไม่ได้ | 12 เดือน |
| ตอนที่ 3: จุดจบของหุ่นยนต์ (บทความนี้) | Jim Fan | ทฤษฎีการขนานใหญ่ แผนผัง Physical AGI ต้นทุนการฝึกบีบอัด 10 เท่า | 1-3 ปี |
AGI ไม่ใช่อนาคต แต่คือปัจจุบัน AGI ดิจิทัลกำลังเขียนซอฟต์แวร์ใหม่ (Karpathy) Physical AGI กำลังเขียนอุตสาหกรรมการผลิตใหม่ (Jim Fan) และพาร์ทเนอร์ของ Sequoia วางเดิมพันแล้ว
สำหรับคุณหมายความว่าอะไร? คุณไม่ต้องเข้าใจสถาปัตยกรรม Dream Zero หรือคณิตศาสตร์ของ Neural Scaling Law สิ่งที่คุณต้องเข้าใจคือ: ทุกสิ่งที่คุณทำตอนนี้ -- เขียนโค้ด บริหารโรงงาน ดูแลผู้สูงอายุ จัดคลังสินค้า -- มี AI/หุ่นยนต์ version กำลังถูกฝึกอยู่ คำถามไม่ใช่ "จะเกิดขึ้นไหม" แต่คือ "ใน version นั้น บทบาทของคุณคืออะไร"
18 เดือน นี่คือหน้าต่างที่ Sequoia ให้ นี่ไม่ใช่การข่มขู่ แต่เป็นคำเชิญ -- เชิญให้คุณเริ่มคิด เริ่มลงมือทำตั้งแต่ตอนนี้
"If you believe in robotics, robotics will believe in you."
ธีมซีรีส์: AGI ไม่ใช่อนาคต แต่คือปัจจุบัน -- และคุณเหลือเวลาแค่ 18 เดือน