完整版 | 影片:客人秘懷員
一個真實故事:某團隊的 Agent 用了最好的模型、提示詞改了上百版、各種參數調了個遍,但任務成功率始終不到 70%——有時聰明,有時莫名跑偏。
後來請人診斷,改動最大的地方既不是模型也不是提示詞,而是:任務怎麼拆、狀態怎麼管、關鍵步驟怎麼校驗、失敗後怎麼恢復。結果?同一個模型、同一套提示詞,成功率拉到 95% 以上。
這背後揭示了一個第一性原理:
過去兩年 AI 工程經歷了三次重心轉移。每一次轉移都源於上一階段碰到了結構性天花板。三者是包含關係——Prompt 是 Context 的子集,Context 是 Harness 的子集。
解決的問題:模型有沒有聽懂你在說什麼?
本質:大模型是對上下文極度敏感的概率生成系統。給什麼身份,它就沿著那個身份回答;給什麼範例,它就沿著那個範式補全。所以提示詞工程的本質不是命令模型,而是塑造一個局部的概率空間。
天花板:只能激發模型已有的能力。說得再好,也補不了事實、管不了狀態、處理不了多步驟的複雜任務。提示詞解決的是「表達」的問題,不是「資訊」的問題。
解決的問題:模型有沒有拿到足夠且正確的資訊?
本質:Context 不只是幾段背景資料,而是所有影響模型當前決策的資訊總和——用戶輸入、歷史對話、檢索結果、工具返回、任務狀態、中間產物、系統規則、安全約束、其他 Agent 傳遞過來的結果。Prompt 其實只是 Context 的一小部分。
關鍵認知:上下文窗口是稀缺資源。資訊不是越多越好——一多,注意力就分散。所以成熟的做法是按需給、分層給、在正確的時機給。(典型實踐:Agent Skills 只先給最少量的元資訊,需要時才動態載入完整 SOP。)
天花板:就算資訊全部給對了,模型在長鏈路執行中仍然會計劃做得好但執行跑偏、呼叫了工具但誤解了返回結果、在漫長的鏈路中慢慢偏移卻無人發現。
解決的問題:模型在真實執行中能不能持續做對?
本質:Harness 原意是「韁繩、馬具、約束裝置」。前兩代工程關注的是怎麼讓模型「更會想」,Harness 關注的是怎麼讓模型「別跑偏」——跑偏了、出錯了,還能拉回來。
提示詞優化「意圖表達」、上下文優化「資訊供給」,但複雜任務裡最難的問題是:當模型開始連續行動,誰來監督它、約束它、糾偏它?
派新人去做重要客戶拜訪:
Prompt = 把任務講清楚(見面先寒暄、介紹方案、問需求、確認下一步)
Context = 把資料準備齊(客戶背景、過往紀錄、報價、競品、會議目標)
Harness = 讓他帶著 checklist、關鍵節點即時匯報、會後核實紀錄與錄音、發現偏差馬上糾正、按標準驗收結果
長時間自主任務中,上下文越來越滿,模型開始丟細節、丟重點,甚至出現一種有趣的現象——它好像「知道自己快裝不下了」,開始急著收尾。
一般做法是壓縮歷史上下文繼續跑,但 Anthropic 發現壓縮只是變短了,模型的「負擔感」並沒消失。所以他們做了更激進的事:直接換一個全新的 Agent,把工作交接過去。就像軟體工程中遇到記憶體洩漏——不繼續清快取,直接重啟進程再恢復狀態。
模型自己做事、自己打分,天然偏樂觀。解法:把「做」和「驗」拆開給不同角色——
核心原則:只要評估者足夠獨立,系統就能形成有效的「生成→檢查→修復→再檢查」循環。
人類不寫程式碼,只負責「設計環境」。工程師的工作變成三件事:
早期把所有規範塞進一個巨大的 AGENT.MD,結果 Agent 反而更糊塗——上下文窗口是稀缺資源,塞太滿等於什麼都沒說。後來改成目錄頁結構:只保留核心索引,詳細內容拆到子文件,需要時再鑽進去。本質上和 Agent Skills 的「按需載入」是同一個思路。
Agent 提交速度太快,人類 code review 盯不過來。所以把資深工程師的經驗寫成系統規則(模組分層、依賴限制、攔截條件),而且規則不只報錯,還會把「怎麼修」一起返回給 Agent,進入下一輪修正。這已不是傳統的程式碼規範,而是可持續運行的自動治理系統。
底層模型完全不變,只通過改造和優化 Harness,就把自家智能體在排行榜上的排名從 30 名開外拉到前 5。這是 Harness Engineering 價值最直觀的證明。
諸葛亮是三國最強的「模型」——謀略無雙,相當於頂級的 LLM。隆中對是他的「Prompt」,清晰定義了三分天下的戰略目標。但蜀漢的存續從來不是靠一次次神機妙算。
真正讓蜀漢這個最弱的國家維持數十年的,是諸葛亮建立的那套制度化治理體系:嚴明的法治(《蜀科》)是約束層;屯田制度和穩定的後勤供應鏈是執行編排;丞相府的官僚系統確保即使前線失敗也不會系統性崩潰,這是狀態管理與恢復機制。
反觀關羽——個人武力值頂尖(Model 能力強),但大意失荊州的本質是什麼?沒有 Harness。沒有情報校驗機制(評估觀測層缺失)、沒有失敗回滾方案(恢復層缺失)、狀態管理混亂(後方被偷襲時完全不知情)。一個沒有 Harness 的頂級 Model,一次失敗就是永久性崩潰。
商鞅變法的本質,就是一次完整的 Harness Engineering 實踐。
變法之前,秦國的「Model」(軍事潛力)並不比其他六國差多少。差的是什麼?運行系統。商鞅做的事情對應得驚人地精確:
結果:同樣一批秦國人,變法前被魏國打得丟失河西之地;變法後短短一代人就成為天下最強。Model 沒換,Harness 換了,整個系統的輸出就天翻地覆。這和影片中「同一個模型同一套提示詞,成功率從 70% 到 95%」的故事如出一轍。
AI 時代的競爭正在從「誰的模型最強」轉向「誰的系統最穩」。以下是三個從 Harness 思維出發的商業方向:
商業邏輯:模型在開源化、同質化,護城河越來越淺。但 Harness 層(編排邏輯、校驗規則、恢復機制、狀態管理)是高度場景化的,難以複製。
怎麼做:針對特定垂直場景(法律合約審核、醫療報告生成、金融風控報告),不賣模型 API,而是賣一套「保證 95%+ 成功率的完整工作流程引擎」。客戶不需要關心底層用什麼模型,他們買的是可靠交付。
護城河:每個行業的 Harness 都需要大量領域知識來設計校驗規則、錯誤恢復路徑、品質標準——這些不是換個模型就能取代的。
商業邏輯:影片中最被忽視的第五層「評估與觀測」,恰恰是最有商業價值的。因為所有企業客戶的核心焦慮都是同一個問題:「我怎麼知道 AI 做得對不對?」
怎麼做:提供獨立的「AI 審計」服務——不做生成,只做驗證。像 Anthropic 的 Evaluator 角色一樣,在客戶的 Agent 系統之外建立獨立的評估層:自動測試、日誌分析、錯誤歸因、合規檢查。
定價模型:按驗證次數或按「保證準確率」來收費。對於金融、醫療、法律等高監管行業,為「可靠性」付費的意願極高。
商業邏輯:OpenAI 的實踐揭示了一個關鍵轉變——工程師的價值不再是寫程式碼,而是「設計讓 Agent 能成功的環境」。這意味著市場需要一種全新的專業服務。
怎麼做:像影片中那個真實案例一樣——不幫客戶換模型、不幫他們改提示詞,而是診斷他們的 Harness:任務怎麼拆更合理?狀態管理是否有死角?校驗機制完不完整?失敗恢復路徑通不通?
市場時機:現在大量團隊正陷在「換了最好的模型但 Agent 還是不穩定」的困境中——這正是這個案例開頭描述的場景。能夠診斷並修復 Harness 問題的人,會是 AI 落地階段最搶手的專家。
三個階段,三個問題:
Prompt Engineering → 怎麼把任務講清楚(表達的工程化)
Context Engineering → 怎麼把資訊給對(輸入環境的工程化)
Harness Engineering → 怎麼讓模型在真實執行中持續做對(整個運行系統的工程化)
Harness 不取代 Prompt 和 Context,而是在更大的系統邊界上將兩者都包含進來。
當你的 Agent 表現不穩定時,問題幾乎從來不是「模型不夠努力」,而是它缺了某種結構性的能力。找到那個缺口、補上那層 Harness——這就是 AI 工程這個階段最值錢的事。