Harness Engineering 寶典

完整版｜影片：客人秘懷員｜ 2026-04-04
分析模型：Gemma 4 本地 Ollama ｜語音轉譯：mlx-whisper

同樣的模型、同樣的提示詞，光靠改善模型外圍的運行系統，Agent 成功率就能從 70% 拉到 95%——這就是 Harness Engineering 的威力。

核心洞見
三階段演進（P → C → H）
Harness 六層架構
一線公司實踐
歷史印證
商業啟發
總結

一、核心洞見

AI 落地的核心挑戰，正在從「讓模型看起來更聰明」轉向「讓模型在真實世界裡穩定工作」。

決定一個 AI 應用能否在真實世界穩定運行、處理複雜的多步驟任務，不是模型的智商，而是圍繞模型建構的一套可靠、可控、可追蹤的「運行環境」與「控制系統」。

Agent = Model + Harness
Harness = 除了模型以外，所有確保穩定交付的東西

二、三階段演進（P → C → H）

過去兩年 AI 工程經歷了三次明顯的重心轉移。這三者不是替代關係，而是包含關係——邊界一層比一層大。

階段一：Prompt Engineering（提示詞工程）

核心問題：模型有沒有聽懂你在說什麼？

提示詞工程的本質不是命令模型，而是塑造一個局部的概率空間。你給什麼身份，它就沿著那個身份回答；你給什麼範例，它就沿著那個範式補全。

擅長：定義任務、約束輸出、激發模型已有能力。

不擅長：彌補缺失的知識、管理動態資訊、處理長鏈路任務的狀態。

這個階段最重要的能力不是系統設計，而是語言設計。

階段二：Context Engineering（上下文工程）

核心問題：模型有沒有拿到足夠且正確的資訊？

當 Agent 需要進入真實環境做事——多輪對話、調用工具、在步驟間傳遞中間結果——系統面對的已不是「一次回答對不對」，而是「整條鏈路能不能跑通」。

Context 不只是幾段背景資料，它代表所有影響模型當前決策的資訊總和：用戶輸入、歷史對話、檢索結果、工具返回、任務狀態、系統規則、安全約束等。

關鍵思路：上下文優化不是「給得更多」，而是按需給、分層給、在正確的時機給。（如 Agent Skills 的做法：只給最少量的元資訊，需要時再動態載入詳細 SOP。）

階段三：Harness Engineering（驅動工程）

核心問題：模型在真實執行中能不能持續做對？

Harness 原意是「韁繩、馬具、約束裝置」。就算資訊給對了，模型也不一定能穩定執行——計劃做得好但執行跑偏、工具結果理解錯誤、在長鏈路中慢慢偏移卻無人發現。

提示詞優化的是意圖表達，上下文優化的是資訊供給，Harness 解決的是：當模型開始連續行動時，誰來監督它、約束它、糾偏它？

類比：派新人去做客戶拜訪——Prompt 是把任務講清楚，Context 是把資料準備齊，Harness 是讓他帶著 checklist、關鍵節點即時匯報、發現偏差馬上糾正、最後按標準驗收結果。

三、Harness 六層架構

1目標與角色定義

模型要知道自己是誰、任務是什麼、成功標準是什麼。Harness 的第一職責是讓模型在正確的資訊邊界內思考。

2工具系統

不是簡單地把工具掛上去，要解決三個問題：給什麼工具（太少不夠、太多會亂用）、什麼時候該調用（不需要時別亂查、該查時別硬答）、工具結果怎麼精煉回饋（不能原封不動塞回去）。

3執行編排

解決「模型下一步該做什麼」。建立明確的執行軌道：理解目標 → 判斷資訊夠不夠 → 補充資料 → 執行 → 檢查輸出 → 不滿足就修正重試。這已非常接近人的工作方式，區別在於人靠經驗、Agent 靠 Harness。

4記憶與狀態

沒有狀態的 Agent 每一輪都像失憶。至少要區分三類：當前任務狀態、會話中的中間結果、長期記憶與用戶偏好。混在一起系統會越來越亂。

5評估與觀測

最容易被忽視的一層。很多系統不是生成不出來，而是生成完不知道自己做得好不好。包括：輸出驗收、環境驗證、自動測試、日誌與指標、錯誤歸因。

6約束、校驗與恢復

真正決定系統能否上線的關鍵。在真實環境中，失敗是常態（搜索不準、API 超時、文檔格式混亂）。必須包含：約束（哪些能做哪些不能做）、校驗（輸出前後如何檢查）、恢復（失敗後如何回滾到穩定狀態）。

四、一線公司實踐

Anthropic — 生產驗收必須分離

問題一：上下文疲勞。時間一長，上下文越來越滿，模型開始丟細節、丟重點，甚至「知道自己快裝不下了就急著收尾」。傳統做法是壓縮歷史上下文，但 Anthropic 發現壓縮只是變短了，負擔感並沒有消失。

解法：Context Refresh — 不是在原上下文繼續壓，而是換一個全新的 Agent 把工作交接過去。就像工程中遇到記憶體洩漏，不繼續清快取，直接重啟進程再恢復狀態。

問題二：自我評分偏差。模型自己幹活再自己打分，往往偏樂觀。

解法：生產驗收分離 — Planner 負責拆需求、Generator 負責實現、Evaluator 負責像 QA 一樣真實測試（不只看程式碼，還真實操作頁面檢查交互結果）。只要評估者足夠獨立，系統就能形成有效循環。

OpenAI — 重新定義工程師的工作

核心思路：人類不需要寫程式碼，只需要「設計環境」。工程師的工作變成三件事：

把產品目標拆解成 Agent 能理解的小任務
Agent 失敗時不是讓它「更努力」，而是問環境裡缺了什麼能力
建立反饋鏈路，讓 Agent 能看到自己的工作結果

AGENT.MD 教訓：早期把所有規範塞進一個巨大的 AGENT.MD，結果 Agent 更糊塗（上下文窗口是稀缺資源，塞太滿等於什麼都沒說）。改為目錄頁結構，只保留核心索引，詳細內容拆到子文件，需要時再鑽進去。

自動治理系統：把資深工程師的經驗寫成系統規則（模組怎麼分層、哪層不能依賴哪層），規則不只報錯，還會把「怎麼修」一起返回給 Agent，形成可持續運行的自動治理。

五、歷史印證

（以下由 Gemma 4 本地模型分析產出）

案例一：蜀漢的制度化治理 — 體現「記憶/狀態」與「約束/恢復」

諸葛亮是超級天才（Model），其戰略目標（Prompt）極為輝煌。然而，蜀漢得以存續並發展，最終依靠的不是單一戰場的妙計，而是諸葛亮建立的一套完整制度化體系：明確的資源分配機制、制度化的稅收徵集流程、確保穩定供應鏈的後勤系統。

當前線指揮官（Agent）戰敗，這套成熟的「制度」和「記憶體」（官僚體系的穩定運轉、明確的指揮權層級）能保證政府不會因單一個人的失誤而崩潰。這完美對應了 Harness 的「狀態管理」與「恢復機制」。

案例二：戰國法家的制度落地 — 體現「目標定義」與「工具系統」

戰國時期各家學說都是極具吸引力的「理論模型」（Model），為君主提供了「概念」（Prompt）。例如法家的「嚴刑峻法」看似完美，但若僅依賴這些口號而無系統化執行體系，很容易導致過度殘酷或缺乏持續性。

真正讓學說大規模落地的，是將理論嵌入「國家治理」體系：建立完善的官僚選拔體系（Tool System）、定義每一層官員在不同場景下的具體權限和操作步驟（Execution Orchestration）、將社會治理拆解成可執行的標準操作流程（SOP）。這讓學術概念從「理想化描述」變成了「可執行的治理工具」。

六、商業啟發

（以下由 Gemma 4 本地模型分析產出）

AI 時代的競爭已經從「誰的模型最好」變成「誰的運營系統最穩」。所有商業策略都應圍繞「如何建構可靠的系統層」展開。

1. 垂直產業的「智能工作流程」SaaS 平台

定位：不做「AI 聊天機器人」，做「全自動化業務流程引擎」。

做法：將複雜業務環節（合約審核、內容產出、客服應對）拆解成數十個精確的原子步驟，平台核心是串聯這些步驟的「編排邏輯」。這樣無論底層模型如何更新迭代，只要流程穩定，產品價值就持續穩定，極具護城河。

2. AI 系統的「品質保證」驗證服務

定位：出售「可靠性」而非「生成能力」，做 AI 系統的 QA 服務商。

做法：針對金融、醫療等高監管行業，提供系統性測試環境。核心是：AI 每步操作後自動捕獲日誌、記錄執行路徑、根據業務約束評分。出錯時不只報告錯誤，還提供「回滾」功能，將失敗處理本身變成高價值產品。

3. 知識圖譜驅動的狀態管理層

定位：突破傳統 RAG，深入「知識結構化管理」。

做法：將企業分散在文件、舊系統中的非結構化數據，自動清洗、提煉，以知識圖譜形式注入 Agent 的運行記憶。讓 Agent 不再只是「讀到」資訊，而是能「理解資訊間的關聯性」——引用的不僅是「報表 A」，而是報表 A 與市場現狀、歷史政策、供應鏈限制等所有關聯節點的交集。

七、總結

Prompt Engineering 解決「怎麼把任務講清楚」

Context Engineering 解決「怎麼把資訊給對」

Harness Engineering 解決「怎麼讓模型在真實執行中持續做對」

Harness 不是取代前兩者，而是在更大的系統邊界上把前兩者都包含進來。真正決定 AI 能不能落地、能不能穩定交付的，就是 Harness。