English

Harness Engineering 寶典

完整版 | 影片:客人秘懷員

分析:Claude Opus 4.6 雲端 | 語音轉譯:mlx-whisper | 2026-04-04

馬再好,沒有韁繩也跑不了長途。
AI 再聰明,沒有 Harness 也落不了地。
目錄
  1. 核心洞見:問題出在哪裡
  2. 三階段演進:從說清楚到跑得穩
  3. Harness 六層架構
  4. 一線公司怎麼做
  5. 歷史印證
  6. 商業啟發
  7. 總結

一、核心洞見:問題出在哪裡

一個真實故事:某團隊的 Agent 用了最好的模型、提示詞改了上百版、各種參數調了個遍,但任務成功率始終不到 70%——有時聰明,有時莫名跑偏。

後來請人診斷,改動最大的地方既不是模型也不是提示詞,而是:任務怎麼拆、狀態怎麼管、關鍵步驟怎麼校驗、失敗後怎麼恢復。結果?同一個模型、同一套提示詞,成功率拉到 95% 以上。

這背後揭示了一個第一性原理:

Agent = Model + Harness 模型決定能力天花板,Harness 決定交付地板。
真正讓 AI 落地的,從來不是模型有多聰明,而是圍繞模型的系統有多可靠。

二、三階段演進:從說清楚到跑得穩

過去兩年 AI 工程經歷了三次重心轉移。每一次轉移都源於上一階段碰到了結構性天花板。三者是包含關係——Prompt 是 Context 的子集,Context 是 Harness 的子集。

階段一

Prompt Engineering — 語言的設計

解決的問題:模型有沒有聽懂你在說什麼?

本質:大模型是對上下文極度敏感的概率生成系統。給什麼身份,它就沿著那個身份回答;給什麼範例,它就沿著那個範式補全。所以提示詞工程的本質不是命令模型,而是塑造一個局部的概率空間

天花板:只能激發模型已有的能力。說得再好,也補不了事實、管不了狀態、處理不了多步驟的複雜任務。提示詞解決的是「表達」的問題,不是「資訊」的問題。

階段二

Context Engineering — 資訊的設計

解決的問題:模型有沒有拿到足夠且正確的資訊?

本質:Context 不只是幾段背景資料,而是所有影響模型當前決策的資訊總和——用戶輸入、歷史對話、檢索結果、工具返回、任務狀態、中間產物、系統規則、安全約束、其他 Agent 傳遞過來的結果。Prompt 其實只是 Context 的一小部分。

關鍵認知:上下文窗口是稀缺資源。資訊不是越多越好——一多,注意力就分散。所以成熟的做法是按需給、分層給、在正確的時機給。(典型實踐:Agent Skills 只先給最少量的元資訊,需要時才動態載入完整 SOP。)

天花板:就算資訊全部給對了,模型在長鏈路執行中仍然會計劃做得好但執行跑偏、呼叫了工具但誤解了返回結果、在漫長的鏈路中慢慢偏移卻無人發現。

階段三

Harness Engineering — 系統的設計

解決的問題:模型在真實執行中能不能持續做對?

本質:Harness 原意是「韁繩、馬具、約束裝置」。前兩代工程關注的是怎麼讓模型「更會想」,Harness 關注的是怎麼讓模型「別跑偏」——跑偏了、出錯了,還能拉回來。

提示詞優化「意圖表達」、上下文優化「資訊供給」,但複雜任務裡最難的問題是:當模型開始連續行動,誰來監督它、約束它、糾偏它?

派新人去做重要客戶拜訪:

Prompt = 把任務講清楚(見面先寒暄、介紹方案、問需求、確認下一步)

Context = 把資料準備齊(客戶背景、過往紀錄、報價、競品、會議目標)

Harness = 讓他帶著 checklist、關鍵節點即時匯報、會後核實紀錄與錄音、發現偏差馬上糾正、按標準驗收結果

三、Harness 六層架構

1 目標與角色定義
模型要明確知道:我是誰?任務是什麼?成功的標準是什麼?Harness 的第一職責就是讓模型在正確的資訊邊界內思考。資訊需要結構化組織——規則放哪、任務放哪、證據放哪,分層清楚。一旦亂掉,模型就容易漏重點、忘約束、甚至自我污染。
2 工具系統
不是把工具掛上去就好,要解決三個問題:給什麼工具(太少能力不夠,太多會亂用)、什麼時候用(不需要查的別亂查,該查的別硬答)、結果怎麼回饋(幾十條返回結果不能原封不動塞回去,要提煉篩選、保持與任務的相關性)。
3 執行編排
很多 Agent 的問題不是某一步不會做,而是不會串聯:想到哪做到哪,最後交出一堆半成品。成熟的系統需要明確軌道:理解目標 → 判斷資訊夠不夠 → 補充 → 執行 → 檢查 → 不滿足就修正重試。人靠經驗走這條路,Agent 靠 Harness。
4 記憶與狀態
沒有狀態管理的 Agent 每一輪都像失憶。必須至少區分三類:當前任務進度、會話中的中間結果、長期記憶與用戶偏好。三者混在一起,系統會越來越混亂。
5 評估與觀測
最容易被忽視的一層。問題往往不是「做不出來」,而是「做完了不知道自己做得好不好」。沒有獨立評估能力的 Agent 會長期停留在「自我感覺良好」的狀態。這層包括:輸出驗收、環境驗證、自動測試、日誌指標、錯誤歸因。
6 約束、校驗與恢復
真正決定系統能否上線的關鍵層。真實環境中失敗是常態——搜索不準、API 超時、文檔格式亂、模型誤解任務。三件事必須具備:約束(什麼能做什麼不能做)、校驗(輸出前後怎麼檢查)、恢復(失敗後怎麼回滾到穩定狀態,而不是從頭重來)。

四、一線公司怎麼做

Anthropic — 兩個核心突破

突破一:Context Refresh(解決上下文疲勞)

長時間自主任務中,上下文越來越滿,模型開始丟細節、丟重點,甚至出現一種有趣的現象——它好像「知道自己快裝不下了」,開始急著收尾。

一般做法是壓縮歷史上下文繼續跑,但 Anthropic 發現壓縮只是變短了,模型的「負擔感」並沒消失。所以他們做了更激進的事:直接換一個全新的 Agent,把工作交接過去。就像軟體工程中遇到記憶體洩漏——不繼續清快取,直接重啟進程再恢復狀態。

突破二:生產驗收分離(解決自我評分偏差)

模型自己做事、自己打分,天然偏樂觀。解法:把「做」和「驗」拆開給不同角色——

核心原則:只要評估者足夠獨立,系統就能形成有效的「生成→檢查→修復→再檢查」循環。

OpenAI — 人類設計環境,Agent 寫全部程式碼

工程師角色重新定義

人類不寫程式碼,只負責「設計環境」。工程師的工作變成三件事:

  1. 把產品目標拆解成 Agent 能理解的小任務
  2. Agent 失敗時不是讓它「更努力」,而是問:環境裡缺了什麼結構性能力?
  3. 建立反饋鏈路,讓 Agent 能看到自己的工作結果

AGENT.MD 的教訓

早期把所有規範塞進一個巨大的 AGENT.MD,結果 Agent 反而更糊塗——上下文窗口是稀缺資源,塞太滿等於什麼都沒說。後來改成目錄頁結構:只保留核心索引,詳細內容拆到子文件,需要時再鑽進去。本質上和 Agent Skills 的「按需載入」是同一個思路。

自動治理系統

Agent 提交速度太快,人類 code review 盯不過來。所以把資深工程師的經驗寫成系統規則(模組分層、依賴限制、攔截條件),而且規則不只報錯,還會把「怎麼修」一起返回給 Agent,進入下一輪修正。這已不是傳統的程式碼規範,而是可持續運行的自動治理系統。

LangChain — 不換模型,只改 Harness

底層模型完全不變,只通過改造和優化 Harness,就把自家智能體在排行榜上的排名從 30 名開外拉到前 5。這是 Harness Engineering 價值最直觀的證明。

五、歷史印證

諸葛亮的蜀漢治理 — 從天才個人到制度系統

諸葛亮是三國最強的「模型」——謀略無雙,相當於頂級的 LLM。隆中對是他的「Prompt」,清晰定義了三分天下的戰略目標。但蜀漢的存續從來不是靠一次次神機妙算。

真正讓蜀漢這個最弱的國家維持數十年的,是諸葛亮建立的那套制度化治理體系:嚴明的法治(《蜀科》)是約束層;屯田制度和穩定的後勤供應鏈是執行編排;丞相府的官僚系統確保即使前線失敗也不會系統性崩潰,這是狀態管理與恢復機制

反觀關羽——個人武力值頂尖(Model 能力強),但大意失荊州的本質是什麼?沒有 Harness。沒有情報校驗機制(評估觀測層缺失)、沒有失敗回滾方案(恢復層缺失)、狀態管理混亂(後方被偷襲時完全不知情)。一個沒有 Harness 的頂級 Model,一次失敗就是永久性崩潰。

秦國的「法治量化」— 從理念到可執行系統

商鞅變法的本質,就是一次完整的 Harness Engineering 實踐。

變法之前,秦國的「Model」(軍事潛力)並不比其他六國差多少。差的是什麼?運行系統。商鞅做的事情對應得驚人地精確:

結果:同樣一批秦國人,變法前被魏國打得丟失河西之地;變法後短短一代人就成為天下最強。Model 沒換,Harness 換了,整個系統的輸出就天翻地覆。這和影片中「同一個模型同一套提示詞,成功率從 70% 到 95%」的故事如出一轍。

六、商業啟發

AI 時代的競爭正在從「誰的模型最強」轉向「誰的系統最穩」。以下是三個從 Harness 思維出發的商業方向:

1. 賣「穩定性」而不是「聰明度」——Harness-as-a-Service

商業邏輯:模型在開源化、同質化,護城河越來越淺。但 Harness 層(編排邏輯、校驗規則、恢復機制、狀態管理)是高度場景化的,難以複製。

怎麼做:針對特定垂直場景(法律合約審核、醫療報告生成、金融風控報告),不賣模型 API,而是賣一套「保證 95%+ 成功率的完整工作流程引擎」。客戶不需要關心底層用什麼模型,他們買的是可靠交付。

護城河:每個行業的 Harness 都需要大量領域知識來設計校驗規則、錯誤恢復路徑、品質標準——這些不是換個模型就能取代的。

2. AI 品質保證(QA)服務 — 評估觀測層的商業化

商業邏輯:影片中最被忽視的第五層「評估與觀測」,恰恰是最有商業價值的。因為所有企業客戶的核心焦慮都是同一個問題:「我怎麼知道 AI 做得對不對?」

怎麼做:提供獨立的「AI 審計」服務——不做生成,只做驗證。像 Anthropic 的 Evaluator 角色一樣,在客戶的 Agent 系統之外建立獨立的評估層:自動測試、日誌分析、錯誤歸因、合規檢查。

定價模型:按驗證次數或按「保證準確率」來收費。對於金融、醫療、法律等高監管行業,為「可靠性」付費的意願極高。

3. 「Agent 環境設計」顧問 — 新時代的系統架構師

商業邏輯:OpenAI 的實踐揭示了一個關鍵轉變——工程師的價值不再是寫程式碼,而是「設計讓 Agent 能成功的環境」。這意味著市場需要一種全新的專業服務。

怎麼做:像影片中那個真實案例一樣——不幫客戶換模型、不幫他們改提示詞,而是診斷他們的 Harness:任務怎麼拆更合理?狀態管理是否有死角?校驗機制完不完整?失敗恢復路徑通不通?

市場時機:現在大量團隊正陷在「換了最好的模型但 Agent 還是不穩定」的困境中——這正是這個案例開頭描述的場景。能夠診斷並修復 Harness 問題的人,會是 AI 落地階段最搶手的專家。

七、總結

三個階段,三個問題:

Prompt Engineering → 怎麼把任務講清楚(表達的工程化)

Context Engineering → 怎麼把資訊給對(輸入環境的工程化)

Harness Engineering → 怎麼讓模型在真實執行中持續做對(整個運行系統的工程化)

Harness 不取代 Prompt 和 Context,而是在更大的系統邊界上將兩者都包含進來。

當你的 Agent 表現不穩定時,問題幾乎從來不是「模型不夠努力」,而是它缺了某種結構性的能力。找到那個缺口、補上那層 Harness——這就是 AI 工程這個階段最值錢的事。