完整版 | 影片:客人秘懷員 | 2026-04-04
分析模型:Gemma 4 本地 Ollama | 語音轉譯:mlx-whisper
AI 落地的核心挑戰,正在從「讓模型看起來更聰明」轉向「讓模型在真實世界裡穩定工作」。
決定一個 AI 應用能否在真實世界穩定運行、處理複雜的多步驟任務,不是模型的智商,而是圍繞模型建構的一套可靠、可控、可追蹤的「運行環境」與「控制系統」。
過去兩年 AI 工程經歷了三次明顯的重心轉移。這三者不是替代關係,而是包含關係——邊界一層比一層大。
提示詞工程的本質不是命令模型,而是塑造一個局部的概率空間。你給什麼身份,它就沿著那個身份回答;你給什麼範例,它就沿著那個範式補全。
擅長:定義任務、約束輸出、激發模型已有能力。
不擅長:彌補缺失的知識、管理動態資訊、處理長鏈路任務的狀態。
這個階段最重要的能力不是系統設計,而是語言設計。
當 Agent 需要進入真實環境做事——多輪對話、調用工具、在步驟間傳遞中間結果——系統面對的已不是「一次回答對不對」,而是「整條鏈路能不能跑通」。
Context 不只是幾段背景資料,它代表所有影響模型當前決策的資訊總和:用戶輸入、歷史對話、檢索結果、工具返回、任務狀態、系統規則、安全約束等。
關鍵思路:上下文優化不是「給得更多」,而是按需給、分層給、在正確的時機給。(如 Agent Skills 的做法:只給最少量的元資訊,需要時再動態載入詳細 SOP。)
Harness 原意是「韁繩、馬具、約束裝置」。就算資訊給對了,模型也不一定能穩定執行——計劃做得好但執行跑偏、工具結果理解錯誤、在長鏈路中慢慢偏移卻無人發現。
提示詞優化的是意圖表達,上下文優化的是資訊供給,Harness 解決的是:當模型開始連續行動時,誰來監督它、約束它、糾偏它?
類比:派新人去做客戶拜訪——Prompt 是把任務講清楚,Context 是把資料準備齊,Harness 是讓他帶著 checklist、關鍵節點即時匯報、發現偏差馬上糾正、最後按標準驗收結果。
1目標與角色定義
模型要知道自己是誰、任務是什麼、成功標準是什麼。Harness 的第一職責是讓模型在正確的資訊邊界內思考。
2工具系統
不是簡單地把工具掛上去,要解決三個問題:給什麼工具(太少不夠、太多會亂用)、什麼時候該調用(不需要時別亂查、該查時別硬答)、工具結果怎麼精煉回饋(不能原封不動塞回去)。
3執行編排
解決「模型下一步該做什麼」。建立明確的執行軌道:理解目標 → 判斷資訊夠不夠 → 補充資料 → 執行 → 檢查輸出 → 不滿足就修正重試。這已非常接近人的工作方式,區別在於人靠經驗、Agent 靠 Harness。
4記憶與狀態
沒有狀態的 Agent 每一輪都像失憶。至少要區分三類:當前任務狀態、會話中的中間結果、長期記憶與用戶偏好。混在一起系統會越來越亂。
5評估與觀測
最容易被忽視的一層。很多系統不是生成不出來,而是生成完不知道自己做得好不好。包括:輸出驗收、環境驗證、自動測試、日誌與指標、錯誤歸因。
6約束、校驗與恢復
真正決定系統能否上線的關鍵。在真實環境中,失敗是常態(搜索不準、API 超時、文檔格式混亂)。必須包含:約束(哪些能做哪些不能做)、校驗(輸出前後如何檢查)、恢復(失敗後如何回滾到穩定狀態)。
問題一:上下文疲勞。時間一長,上下文越來越滿,模型開始丟細節、丟重點,甚至「知道自己快裝不下了就急著收尾」。傳統做法是壓縮歷史上下文,但 Anthropic 發現壓縮只是變短了,負擔感並沒有消失。
解法:Context Refresh — 不是在原上下文繼續壓,而是換一個全新的 Agent 把工作交接過去。就像工程中遇到記憶體洩漏,不繼續清快取,直接重啟進程再恢復狀態。
問題二:自我評分偏差。模型自己幹活再自己打分,往往偏樂觀。
解法:生產驗收分離 — Planner 負責拆需求、Generator 負責實現、Evaluator 負責像 QA 一樣真實測試(不只看程式碼,還真實操作頁面檢查交互結果)。只要評估者足夠獨立,系統就能形成有效循環。
核心思路:人類不需要寫程式碼,只需要「設計環境」。工程師的工作變成三件事:
AGENT.MD 教訓:早期把所有規範塞進一個巨大的 AGENT.MD,結果 Agent 更糊塗(上下文窗口是稀缺資源,塞太滿等於什麼都沒說)。改為目錄頁結構,只保留核心索引,詳細內容拆到子文件,需要時再鑽進去。
自動治理系統:把資深工程師的經驗寫成系統規則(模組怎麼分層、哪層不能依賴哪層),規則不只報錯,還會把「怎麼修」一起返回給 Agent,形成可持續運行的自動治理。
(以下由 Gemma 4 本地模型分析產出)
諸葛亮是超級天才(Model),其戰略目標(Prompt)極為輝煌。然而,蜀漢得以存續並發展,最終依靠的不是單一戰場的妙計,而是諸葛亮建立的一套完整制度化體系:明確的資源分配機制、制度化的稅收徵集流程、確保穩定供應鏈的後勤系統。
當前線指揮官(Agent)戰敗,這套成熟的「制度」和「記憶體」(官僚體系的穩定運轉、明確的指揮權層級)能保證政府不會因單一個人的失誤而崩潰。這完美對應了 Harness 的「狀態管理」與「恢復機制」。
戰國時期各家學說都是極具吸引力的「理論模型」(Model),為君主提供了「概念」(Prompt)。例如法家的「嚴刑峻法」看似完美,但若僅依賴這些口號而無系統化執行體系,很容易導致過度殘酷或缺乏持續性。
真正讓學說大規模落地的,是將理論嵌入「國家治理」體系:建立完善的官僚選拔體系(Tool System)、定義每一層官員在不同場景下的具體權限和操作步驟(Execution Orchestration)、將社會治理拆解成可執行的標準操作流程(SOP)。這讓學術概念從「理想化描述」變成了「可執行的治理工具」。
(以下由 Gemma 4 本地模型分析產出)
AI 時代的競爭已經從「誰的模型最好」變成「誰的運營系統最穩」。所有商業策略都應圍繞「如何建構可靠的系統層」展開。
定位:不做「AI 聊天機器人」,做「全自動化業務流程引擎」。
做法:將複雜業務環節(合約審核、內容產出、客服應對)拆解成數十個精確的原子步驟,平台核心是串聯這些步驟的「編排邏輯」。這樣無論底層模型如何更新迭代,只要流程穩定,產品價值就持續穩定,極具護城河。
定位:出售「可靠性」而非「生成能力」,做 AI 系統的 QA 服務商。
做法:針對金融、醫療等高監管行業,提供系統性測試環境。核心是:AI 每步操作後自動捕獲日誌、記錄執行路徑、根據業務約束評分。出錯時不只報告錯誤,還提供「回滾」功能,將失敗處理本身變成高價值產品。
定位:突破傳統 RAG,深入「知識結構化管理」。
做法:將企業分散在文件、舊系統中的非結構化數據,自動清洗、提煉,以知識圖譜形式注入 Agent 的運行記憶。讓 Agent 不再只是「讀到」資訊,而是能「理解資訊間的關聯性」——引用的不僅是「報表 A」,而是報表 A 與市場現狀、歷史政策、供應鏈限制等所有關聯節點的交集。
Prompt Engineering 解決「怎麼把任務講清楚」
Context Engineering 解決「怎麼把資訊給對」
Harness Engineering 解決「怎麼讓模型在真實執行中持續做對」
Harness 不是取代前兩者,而是在更大的系統邊界上把前兩者都包含進來。真正決定 AI 能不能落地、能不能穩定交付的,就是 Harness。