Harness Engineering 寶典

完整版｜影片：客人秘懷員

分析：Claude Opus 4.6 雲端｜語音轉譯：mlx-whisper ｜ 2026-04-04

馬再好，沒有韁繩也跑不了長途。
AI 再聰明，沒有 Harness 也落不了地。

核心洞見：問題出在哪裡
三階段演進：從說清楚到跑得穩
Harness 六層架構
一線公司怎麼做
歷史印證
商業啟發
總結

一、核心洞見：問題出在哪裡

一個真實故事：某團隊的 Agent 用了最好的模型、提示詞改了上百版、各種參數調了個遍，但任務成功率始終不到 70%——有時聰明，有時莫名跑偏。

後來請人診斷，改動最大的地方既不是模型也不是提示詞，而是：任務怎麼拆、狀態怎麼管、關鍵步驟怎麼校驗、失敗後怎麼恢復。結果？同一個模型、同一套提示詞，成功率拉到 95% 以上。

這背後揭示了一個第一性原理：

Agent = Model + Harness 模型決定能力天花板，Harness 決定交付地板。
真正讓 AI 落地的，從來不是模型有多聰明，而是圍繞模型的系統有多可靠。

二、三階段演進：從說清楚到跑得穩

過去兩年 AI 工程經歷了三次重心轉移。每一次轉移都源於上一階段碰到了結構性天花板。三者是包含關係——Prompt 是 Context 的子集，Context 是 Harness 的子集。

階段一

Prompt Engineering — 語言的設計

解決的問題：模型有沒有聽懂你在說什麼？

本質：大模型是對上下文極度敏感的概率生成系統。給什麼身份，它就沿著那個身份回答；給什麼範例，它就沿著那個範式補全。所以提示詞工程的本質不是命令模型，而是塑造一個局部的概率空間。

天花板：只能激發模型已有的能力。說得再好，也補不了事實、管不了狀態、處理不了多步驟的複雜任務。提示詞解決的是「表達」的問題，不是「資訊」的問題。

階段二

Context Engineering — 資訊的設計

解決的問題：模型有沒有拿到足夠且正確的資訊？

本質：Context 不只是幾段背景資料，而是所有影響模型當前決策的資訊總和——用戶輸入、歷史對話、檢索結果、工具返回、任務狀態、中間產物、系統規則、安全約束、其他 Agent 傳遞過來的結果。Prompt 其實只是 Context 的一小部分。

關鍵認知：上下文窗口是稀缺資源。資訊不是越多越好——一多，注意力就分散。所以成熟的做法是按需給、分層給、在正確的時機給。（典型實踐：Agent Skills 只先給最少量的元資訊，需要時才動態載入完整 SOP。）

天花板：就算資訊全部給對了，模型在長鏈路執行中仍然會計劃做得好但執行跑偏、呼叫了工具但誤解了返回結果、在漫長的鏈路中慢慢偏移卻無人發現。

階段三

Harness Engineering — 系統的設計

解決的問題：模型在真實執行中能不能持續做對？

本質：Harness 原意是「韁繩、馬具、約束裝置」。前兩代工程關注的是怎麼讓模型「更會想」，Harness 關注的是怎麼讓模型「別跑偏」——跑偏了、出錯了，還能拉回來。

提示詞優化「意圖表達」、上下文優化「資訊供給」，但複雜任務裡最難的問題是：當模型開始連續行動，誰來監督它、約束它、糾偏它？

派新人去做重要客戶拜訪：

Prompt = 把任務講清楚（見面先寒暄、介紹方案、問需求、確認下一步）

Context = 把資料準備齊（客戶背景、過往紀錄、報價、競品、會議目標）

Harness = 讓他帶著 checklist、關鍵節點即時匯報、會後核實紀錄與錄音、發現偏差馬上糾正、按標準驗收結果

三、Harness 六層架構

1 目標與角色定義
模型要明確知道：我是誰？任務是什麼？成功的標準是什麼？Harness 的第一職責就是讓模型在正確的資訊邊界內思考。資訊需要結構化組織——規則放哪、任務放哪、證據放哪，分層清楚。一旦亂掉，模型就容易漏重點、忘約束、甚至自我污染。

2 工具系統
不是把工具掛上去就好，要解決三個問題：給什麼工具（太少能力不夠，太多會亂用）、什麼時候用（不需要查的別亂查，該查的別硬答）、結果怎麼回饋（幾十條返回結果不能原封不動塞回去，要提煉篩選、保持與任務的相關性）。

3 執行編排
很多 Agent 的問題不是某一步不會做，而是不會串聯：想到哪做到哪，最後交出一堆半成品。成熟的系統需要明確軌道：理解目標 → 判斷資訊夠不夠 → 補充 → 執行 → 檢查 → 不滿足就修正重試。人靠經驗走這條路，Agent 靠 Harness。

4 記憶與狀態
沒有狀態管理的 Agent 每一輪都像失憶。必須至少區分三類：當前任務進度、會話中的中間結果、長期記憶與用戶偏好。三者混在一起，系統會越來越混亂。

5 評估與觀測
最容易被忽視的一層。問題往往不是「做不出來」，而是「做完了不知道自己做得好不好」。沒有獨立評估能力的 Agent 會長期停留在「自我感覺良好」的狀態。這層包括：輸出驗收、環境驗證、自動測試、日誌指標、錯誤歸因。

6 約束、校驗與恢復
真正決定系統能否上線的關鍵層。真實環境中失敗是常態——搜索不準、API 超時、文檔格式亂、模型誤解任務。三件事必須具備：約束（什麼能做什麼不能做）、校驗（輸出前後怎麼檢查）、恢復（失敗後怎麼回滾到穩定狀態，而不是從頭重來）。

四、一線公司怎麼做

Anthropic — 兩個核心突破

突破一：Context Refresh（解決上下文疲勞）

長時間自主任務中，上下文越來越滿，模型開始丟細節、丟重點，甚至出現一種有趣的現象——它好像「知道自己快裝不下了」，開始急著收尾。

一般做法是壓縮歷史上下文繼續跑，但 Anthropic 發現壓縮只是變短了，模型的「負擔感」並沒消失。所以他們做了更激進的事：直接換一個全新的 Agent，把工作交接過去。就像軟體工程中遇到記憶體洩漏——不繼續清快取，直接重啟進程再恢復狀態。

突破二：生產驗收分離（解決自我評分偏差）

模型自己做事、自己打分，天然偏樂觀。解法：把「做」和「驗」拆開給不同角色——

Planner：把模糊需求拆成完整規格
Generator：逐步實現
Evaluator：像 QA 一樣真實測試（不只看程式碼，還真實操作頁面、檢查交互結果）

核心原則：只要評估者足夠獨立，系統就能形成有效的「生成→檢查→修復→再檢查」循環。

OpenAI — 人類設計環境，Agent 寫全部程式碼

工程師角色重新定義

人類不寫程式碼，只負責「設計環境」。工程師的工作變成三件事：

把產品目標拆解成 Agent 能理解的小任務
Agent 失敗時不是讓它「更努力」，而是問：環境裡缺了什麼結構性能力？
建立反饋鏈路，讓 Agent 能看到自己的工作結果

AGENT.MD 的教訓

早期把所有規範塞進一個巨大的 AGENT.MD，結果 Agent 反而更糊塗——上下文窗口是稀缺資源，塞太滿等於什麼都沒說。後來改成目錄頁結構：只保留核心索引，詳細內容拆到子文件，需要時再鑽進去。本質上和 Agent Skills 的「按需載入」是同一個思路。

自動治理系統

Agent 提交速度太快，人類 code review 盯不過來。所以把資深工程師的經驗寫成系統規則（模組分層、依賴限制、攔截條件），而且規則不只報錯，還會把「怎麼修」一起返回給 Agent，進入下一輪修正。這已不是傳統的程式碼規範，而是可持續運行的自動治理系統。

LangChain — 不換模型，只改 Harness

底層模型完全不變，只通過改造和優化 Harness，就把自家智能體在排行榜上的排名從 30 名開外拉到前 5。這是 Harness Engineering 價值最直觀的證明。

五、歷史印證

諸葛亮的蜀漢治理 — 從天才個人到制度系統

諸葛亮是三國最強的「模型」——謀略無雙，相當於頂級的 LLM。隆中對是他的「Prompt」，清晰定義了三分天下的戰略目標。但蜀漢的存續從來不是靠一次次神機妙算。

真正讓蜀漢這個最弱的國家維持數十年的，是諸葛亮建立的那套制度化治理體系：嚴明的法治（《蜀科》）是約束層；屯田制度和穩定的後勤供應鏈是執行編排；丞相府的官僚系統確保即使前線失敗也不會系統性崩潰，這是狀態管理與恢復機制。

反觀關羽——個人武力值頂尖（Model 能力強），但大意失荊州的本質是什麼？沒有 Harness。沒有情報校驗機制（評估觀測層缺失）、沒有失敗回滾方案（恢復層缺失）、狀態管理混亂（後方被偷襲時完全不知情）。一個沒有 Harness 的頂級 Model，一次失敗就是永久性崩潰。

秦國的「法治量化」— 從理念到可執行系統

商鞅變法的本質，就是一次完整的 Harness Engineering 實踐。

變法之前，秦國的「Model」（軍事潛力）並不比其他六國差多少。差的是什麼？運行系統。商鞅做的事情對應得驚人地精確：

目標定義：廢世卿世祿，以軍功論爵，讓每個「Agent」（士兵和官員）都有明確的成功標準
工具管理：統一度量衡——確保所有「工具返回值」標準化，不會因為度量不同而產生混亂
執行編排：什伍連坐制——將龐大的國家治理拆解成最小可執行單元，每五家、每十家就是一個獨立的任務循環
約束與校驗：刑無等級，王子犯法與庶民同罪——規則不因「Agent 的身份」而豁免

結果：同樣一批秦國人，變法前被魏國打得丟失河西之地；變法後短短一代人就成為天下最強。Model 沒換，Harness 換了，整個系統的輸出就天翻地覆。這和影片中「同一個模型同一套提示詞，成功率從 70% 到 95%」的故事如出一轍。

六、商業啟發

AI 時代的競爭正在從「誰的模型最強」轉向「誰的系統最穩」。以下是三個從 Harness 思維出發的商業方向：

1. 賣「穩定性」而不是「聰明度」——Harness-as-a-Service

商業邏輯：模型在開源化、同質化，護城河越來越淺。但 Harness 層（編排邏輯、校驗規則、恢復機制、狀態管理）是高度場景化的，難以複製。

怎麼做：針對特定垂直場景（法律合約審核、醫療報告生成、金融風控報告），不賣模型 API，而是賣一套「保證 95%+ 成功率的完整工作流程引擎」。客戶不需要關心底層用什麼模型，他們買的是可靠交付。

護城河：每個行業的 Harness 都需要大量領域知識來設計校驗規則、錯誤恢復路徑、品質標準——這些不是換個模型就能取代的。

2. AI 品質保證（QA）服務 — 評估觀測層的商業化

商業邏輯：影片中最被忽視的第五層「評估與觀測」，恰恰是最有商業價值的。因為所有企業客戶的核心焦慮都是同一個問題：「我怎麼知道 AI 做得對不對？」

怎麼做：提供獨立的「AI 審計」服務——不做生成，只做驗證。像 Anthropic 的 Evaluator 角色一樣，在客戶的 Agent 系統之外建立獨立的評估層：自動測試、日誌分析、錯誤歸因、合規檢查。

定價模型：按驗證次數或按「保證準確率」來收費。對於金融、醫療、法律等高監管行業，為「可靠性」付費的意願極高。

3. 「Agent 環境設計」顧問 — 新時代的系統架構師

商業邏輯：OpenAI 的實踐揭示了一個關鍵轉變——工程師的價值不再是寫程式碼，而是「設計讓 Agent 能成功的環境」。這意味著市場需要一種全新的專業服務。

怎麼做：像影片中那個真實案例一樣——不幫客戶換模型、不幫他們改提示詞，而是診斷他們的 Harness：任務怎麼拆更合理？狀態管理是否有死角？校驗機制完不完整？失敗恢復路徑通不通？

市場時機：現在大量團隊正陷在「換了最好的模型但 Agent 還是不穩定」的困境中——這正是這個案例開頭描述的場景。能夠診斷並修復 Harness 問題的人，會是 AI 落地階段最搶手的專家。

七、總結

三個階段，三個問題：

Prompt Engineering → 怎麼把任務講清楚（表達的工程化）

Context Engineering → 怎麼把資訊給對（輸入環境的工程化）

Harness Engineering → 怎麼讓模型在真實執行中持續做對（整個運行系統的工程化）

Harness 不取代 Prompt 和 Context，而是在更大的系統邊界上將兩者都包含進來。

當你的 Agent 表現不穩定時，問題幾乎從來不是「模型不夠努力」，而是它缺了某種結構性的能力。找到那個缺口、補上那層 Harness——這就是 AI 工程這個階段最值錢的事。