RAG 工作機制詳解 — 讓 AI 只讀相關的那三頁，而不是整本書

English

記憶點：你有一本上千頁的產品手冊要給 AI 讀，但 AI 記憶力有限（上下文窗口）、讀完很慢（推理速度）、還很貴（Token 成本）。RAG 的解法超簡單 — 先把手冊切成碎片，用戶問問題時只挑出最相關的 3 片給 AI 讀。就像公司招人不會面試所有人，先篩簡歷挑 10 個，再面試挑 3 個。這就是 RAG 的全部。

一、RAG 是什麼？

RAG = Retrieval Augmented Generation（檢索增強生成）

拆開來看：先從資料庫「檢索」（Retrieval）相關內容，用這些內容「增強」（Augmented）大模型的知識，最後讓大模型「生成」（Generation）答案。順序是先檢索再生成，所以叫「檢索增強生成」。

應用場景：企業智能客服、內部知識庫問答、產品手冊查詢 — 任何需要 AI 基於「你的資料」回答問題的場景。

為什麼不直接把整份文檔丟給大模型？

問題	原因	後果
裝不下	每個模型有上下文窗口大小限制	讀了後面忘了前面，準確率無法保障
太貴	輸入越多 Token，成本越高	每次回答都帶著一本厚手冊，費用可想而知
太慢	輸入越多，模型消化時間越長	推理速度嚴重受影響

RAG 的解法：不把整份文檔丟給模型，而是只把「和用戶問題相關的片段」挑出來給模型。上千頁變成 3 頁，三個問題全部解決。

二、RAG 完整流程：五個環節

1分片（Chunking）📋 提問前準備

把整份文檔切成多個小片段。可以按字數（如 1,000 字一片）、段落、章節、頁碼等方式切分。不管怎麼切，目的就是把一大份文檔變成多份小片段。

2索引（Indexing）📋 提問前準備

用 Embedding 模型把每個片段的文字轉換成向量（一組數字），然後把「原始文本 + 對應向量」一起存入向量資料庫。

三個關鍵概念：

向量（Vector）：用一組數字表示文本的含義。維度越高（幾百到幾千維），包含的語義信息越豐富。含義相近的文本，向量也會相近。
Embedding：把文字轉換成向量的過程。由專門的 Embedding 模型完成（不是 ChatGPT/DeepSeek 那種大模型，而是專門做向量轉換的模型）。可參考 MTEB 排行榜選擇模型。
向量資料庫：專門為存儲和查詢向量而優化的資料庫，提供向量相似度計算功能。表格至少有兩欄：原始文本 + 對應向量。

3召回（Retrieval）❓ 提問後執行

用戶提問 → Embedding 模型把問題轉成向量 → 向量資料庫計算問題向量與所有片段向量的相似度 → 返回最相似的 10 個片段。

相似度計算方法：

餘弦相似度：計算兩個向量的夾角。角越小，相似度越高。
歐式距離：計算兩個向量之間的直線距離。距離越小，相似度越高。
點積：同時考慮方向和長度。積越大，相似度越高。

召回的特點：成本低、速度快、但準確率相對低。適合從上千個片段中快速粗篩。

4重排（Reranking）❓ 提問後執行

從召回的 10 個片段中，用更精準的重排模型再挑出 3 個最相關的。

重排的特點：成本較高、速度較慢、但準確率高很多。適合精挑細選。

為什麼不直接挑 3 個？就像公司招人 — 召回 = 篩簡歷（從上千份快速挑 10 份），重排 = 面試（從 10 個仔細挑 3 個）。直接面試所有人不現實，直接從簡歷挑 3 個又不夠準。兩階段才是最優解。

5生成（Generation）❓ 提問後執行

把用戶的問題 + 3 個最相關的片段一起發給大模型（如 ChatGPT、DeepSeek），大模型根據片段內容生成最終答案。

三、第一性原理分析

RAG 解決的根本矛盾

大模型有一個根本矛盾：它需要知識才能回答問題，但把所有知識都塞給它反而讓它變蠢、變慢、變貴。這就像一個人，你給他一頁紙他能精準回答，給他一整個圖書館他反而找不到答案。

RAG 的本質是一個信息壓縮漏斗：上千頁 → 10 個片段（召回）→ 3 個片段（重排）→ 1 個答案（生成）。每一步都在壓縮信息量、提升相關度。

Embedding 的核心洞察：用數字捕捉含義

Embedding 的精妙之處在於：它把人類語言的「含義」轉換成了數學空間中的「位置」。含義相近的文本在數學空間中距離也近。這意味著「海文喜歡吃西瓜」和「海文愛吃西瓜」的向量會非常接近，而「天氣真好」則會在數學空間中距離很遠。

語義搜索取代了關鍵字搜索。傳統搜索靠字面匹配（「西瓜」匹配「西瓜」），Embedding 搜索靠語義匹配（「水果」也能匹配到「西瓜」）。

召回 + 重排的設計邏輯

這是一個經典的漏斗設計模式：第一層用便宜、快速但粗糙的方法大面積篩選，第二層用昂貴、精確的方法細篩。這個模式到處都是 — Google 搜索（先用索引快速召回，再用排序算法精排）、電商推薦（先用協同過濾召回候選，再用深度學習模型精排）、甚至面試招人（簡歷篩選 → 面試）。

本質是成本和精度的權衡：如果精度不需要太高，一層就夠；如果成本不是問題，直接用最精確的方法對所有數據計算。但現實中兩者都有限制，所以多層漏斗是最優解。

四、歷史印證

三國・諸葛亮的「人肉 RAG」— 隆中對

諸葛亮躬耕南陽時，並沒有讀遍天下所有情報。他的做法是：先把天下大勢的關鍵信息「分片」（魏蜀吳各方勢力、地理要害、人心向背），建立自己的「知識庫」。劉備三顧茅廬問「天下大勢如何？」時，諸葛亮沒有把所有資訊一股腦倒出來，而是「召回」最相關的片段（荊州可取、益州可守、聯吳抗曹），再「重排」出最關鍵的三步戰略，最終「生成」了隆中對。

這就是人類版的 RAG：不是知道所有事情，而是在被問到時能精準調出最相關的知識。諸葛亮的價值不在於他記住了多少情報，而在於他的「檢索」能力 — 能從海量信息中快速定位到最關鍵的幾條。

圖書館的演化 — 從亞歷山大到 Google

亞歷山大圖書館收藏了 40 萬卷莎草紙文獻，但查找特定知識極其困難 — 沒有「索引系統」，學者必須一卷一卷翻。後來圖書館學之父卡利馬科斯建立了《目錄》（Pinakes），把文獻按作者和主題分類 — 這就是人類歷史上第一次「索引」。

Google 把這個概念數位化：先「爬取」網頁（分片），建立「倒排索引」（索引），用戶搜索時快速「召回」相關網頁，再用 PageRank「重排」，最終展示最相關的結果。

RAG 不是新發明，是圖書館分類法的 AI 版本。每個時代解決「從海量信息中找到相關知識」的方式不同，但底層邏輯從未改變：分類 → 索引 → 檢索 → 排序。

三國・曹操的「召回失敗」— 赤壁之戰

赤壁之戰前，曹操面對的資訊和諸葛亮一樣多，但他的「召回」出了問題。他只「召回」了有利的信息（兵力優勢、荊州已下、劉琮投降），忽略了關鍵片段（北方士兵不習水戰、瘟疫蔓延、東吳主戰派的決心）。

用 RAG 的語言說：曹操的 Embedding 模型有偏差 — 把「我想聽的」和「問題相關的」混淆了。他的相似度計算不是基於客觀事實，而是基於自己的傲慢。RAG 系統的品質取決於 Embedding 的品質。如果你的「語義理解」有偏差，召回的片段就會是錯的，最終生成的答案也會是錯的。

五、商業啟發

啟發一：每家企業都需要自己的 RAG — 「企業知識大腦」是剛需

影片中提到 RAG 最常見的應用就是企業智能客服和知識庫。目前大部分企業的內部知識散落在文件、Email、Slack、Wiki 中，員工找資料平均浪費 20% 的工作時間。

賺錢邏輯：幫企業建立 RAG 知識庫的 SaaS 服務。客戶上傳文件 → 自動分片+索引 → 員工/客戶直接問問題就能得到答案。按月收費或按查詢次數收費。這是 2025-2026 最熱的 AI 落地方向之一。

啟發二：「重排」就是商業世界的策展 — 策展能力值錢

RAG 中最值錢的環節不是生成（大模型都能做），而是重排— 從一堆看似相關的內容中挑出真正有價值的。這和策展人、編輯、顧問的價值一模一樣：信息不缺，缺的是「幫你挑出最重要的那三條」。

賺錢邏輯：在任何信息過載的領域（投資研報、法律判例、醫學文獻），做「AI 重排」服務。不是給客戶更多資訊，而是幫他們從海量資訊中精準挑出最相關的 3 條。這就是「判斷力即服務」。

啟發三：Embedding 品質決定一切 — 「語義理解」是護城河

RAG 系統的好壞，80% 取決於 Embedding 的品質。通用的 Embedding 模型對特定行業的術語和語境理解有限。例如「蘋果」在科技公司知識庫中應該指 Apple，在農業知識庫中應該指水果。

賺錢邏輯：為特定行業微調 Embedding 模型（Fine-tuned Embedding as a Service）。法律、醫療、金融等行業的專業術語和語義關係，通用模型抓不準。誰的 Embedding 最懂這個行業，誰的 RAG 就最準，客戶就最離不開你。

啟發四：分片策略是被低估的技術 — 「怎麼切」決定「找得到找不到」

影片中簡單帶過的「分片」其實是 RAG 系統中最被低估的環節。切太大，召回不精準；切太小，語境丟失。不同類型的文檔（法律合約、技術文件、對話紀錄）需要完全不同的分片策略。

賺錢邏輯：開發智能分片工具 — 根據文檔類型自動選擇最佳分片策略。這看起來是小工具，但直接影響 RAG 系統的最終效果，是 AI 基礎設施中的關鍵一環。

六、核心洞察

RAG 的真正意義不在技術，而在於它揭示了一個普世規律：智慧不是記住所有事情，而是在被問到時能快速找到最相關的那幾條。

費曼說「你不需要知道所有事情，你只需要知道去哪裡找」。諸葛亮不是最博學的人，但他是最會「召回」和「重排」的人。Google 不生產任何內容，但它是最強的「檢索增強」系統。

在 AI 時代，這個規律更加放大：大模型的「知識」（參數）是有限的，但「可檢索的知識」（外部資料庫）是無限的。RAG 把大模型從一個「什麼都知道一點但都不精確」的通才，變成了一個「問什麼就能精準查到並回答」的專家。這也是人類應該學習的方式 — 不要試圖記住所有東西，而是建立一個好的「個人知識庫」和「檢索系統」。

原始字幕檔：阿貴寶典/原始資料/RAG工作機制詳解-語音辨識字幕.txt

影片來源：https://www.youtube.com/watch?v=JCPLP6BiCrQ