RAG = Retrieval Augmented Generation(檢索增強生成)
拆開來看:先從資料庫「檢索」(Retrieval)相關內容,用這些內容「增強」(Augmented)大模型的知識,最後讓大模型「生成」(Generation)答案。順序是先檢索再生成,所以叫「檢索增強生成」。
應用場景:企業智能客服、內部知識庫問答、產品手冊查詢 — 任何需要 AI 基於「你的資料」回答問題的場景。
| 問題 | 原因 | 後果 |
|---|---|---|
| 裝不下 | 每個模型有上下文窗口大小限制 | 讀了後面忘了前面,準確率無法保障 |
| 太貴 | 輸入越多 Token,成本越高 | 每次回答都帶著一本厚手冊,費用可想而知 |
| 太慢 | 輸入越多,模型消化時間越長 | 推理速度嚴重受影響 |
RAG 的解法:不把整份文檔丟給模型,而是只把「和用戶問題相關的片段」挑出來給模型。上千頁變成 3 頁,三個問題全部解決。
把整份文檔切成多個小片段。可以按字數(如 1,000 字一片)、段落、章節、頁碼等方式切分。不管怎麼切,目的就是把一大份文檔變成多份小片段。
用 Embedding 模型把每個片段的文字轉換成向量(一組數字),然後把「原始文本 + 對應向量」一起存入向量資料庫。
三個關鍵概念:
用戶提問 → Embedding 模型把問題轉成向量 → 向量資料庫計算問題向量與所有片段向量的相似度 → 返回最相似的 10 個片段。
相似度計算方法:
召回的特點:成本低、速度快、但準確率相對低。適合從上千個片段中快速粗篩。
從召回的 10 個片段中,用更精準的重排模型再挑出 3 個最相關的。
重排的特點:成本較高、速度較慢、但準確率高很多。適合精挑細選。
為什麼不直接挑 3 個?就像公司招人 — 召回 = 篩簡歷(從上千份快速挑 10 份),重排 = 面試(從 10 個仔細挑 3 個)。直接面試所有人不現實,直接從簡歷挑 3 個又不夠準。兩階段才是最優解。
把用戶的問題 + 3 個最相關的片段一起發給大模型(如 ChatGPT、DeepSeek),大模型根據片段內容生成最終答案。
大模型有一個根本矛盾:它需要知識才能回答問題,但把所有知識都塞給它反而讓它變蠢、變慢、變貴。這就像一個人,你給他一頁紙他能精準回答,給他一整個圖書館他反而找不到答案。
RAG 的本質是一個信息壓縮漏斗:上千頁 → 10 個片段(召回)→ 3 個片段(重排)→ 1 個答案(生成)。每一步都在壓縮信息量、提升相關度。
Embedding 的精妙之處在於:它把人類語言的「含義」轉換成了數學空間中的「位置」。含義相近的文本在數學空間中距離也近。這意味著「海文喜歡吃西瓜」和「海文愛吃西瓜」的向量會非常接近,而「天氣真好」則會在數學空間中距離很遠。
語義搜索取代了關鍵字搜索。傳統搜索靠字面匹配(「西瓜」匹配「西瓜」),Embedding 搜索靠語義匹配(「水果」也能匹配到「西瓜」)。
這是一個經典的漏斗設計模式:第一層用便宜、快速但粗糙的方法大面積篩選,第二層用昂貴、精確的方法細篩。這個模式到處都是 — Google 搜索(先用索引快速召回,再用排序算法精排)、電商推薦(先用協同過濾召回候選,再用深度學習模型精排)、甚至面試招人(簡歷篩選 → 面試)。
本質是成本和精度的權衡:如果精度不需要太高,一層就夠;如果成本不是問題,直接用最精確的方法對所有數據計算。但現實中兩者都有限制,所以多層漏斗是最優解。
諸葛亮躬耕南陽時,並沒有讀遍天下所有情報。他的做法是:先把天下大勢的關鍵信息「分片」(魏蜀吳各方勢力、地理要害、人心向背),建立自己的「知識庫」。劉備三顧茅廬問「天下大勢如何?」時,諸葛亮沒有把所有資訊一股腦倒出來,而是「召回」最相關的片段(荊州可取、益州可守、聯吳抗曹),再「重排」出最關鍵的三步戰略,最終「生成」了隆中對。
這就是人類版的 RAG:不是知道所有事情,而是在被問到時能精準調出最相關的知識。諸葛亮的價值不在於他記住了多少情報,而在於他的「檢索」能力 — 能從海量信息中快速定位到最關鍵的幾條。
亞歷山大圖書館收藏了 40 萬卷莎草紙文獻,但查找特定知識極其困難 — 沒有「索引系統」,學者必須一卷一卷翻。後來圖書館學之父卡利馬科斯建立了《目錄》(Pinakes),把文獻按作者和主題分類 — 這就是人類歷史上第一次「索引」。
Google 把這個概念數位化:先「爬取」網頁(分片),建立「倒排索引」(索引),用戶搜索時快速「召回」相關網頁,再用 PageRank「重排」,最終展示最相關的結果。
RAG 不是新發明,是圖書館分類法的 AI 版本。每個時代解決「從海量信息中找到相關知識」的方式不同,但底層邏輯從未改變:分類 → 索引 → 檢索 → 排序。
赤壁之戰前,曹操面對的資訊和諸葛亮一樣多,但他的「召回」出了問題。他只「召回」了有利的信息(兵力優勢、荊州已下、劉琮投降),忽略了關鍵片段(北方士兵不習水戰、瘟疫蔓延、東吳主戰派的決心)。
用 RAG 的語言說:曹操的 Embedding 模型有偏差 — 把「我想聽的」和「問題相關的」混淆了。他的相似度計算不是基於客觀事實,而是基於自己的傲慢。RAG 系統的品質取決於 Embedding 的品質。如果你的「語義理解」有偏差,召回的片段就會是錯的,最終生成的答案也會是錯的。
影片中提到 RAG 最常見的應用就是企業智能客服和知識庫。目前大部分企業的內部知識散落在文件、Email、Slack、Wiki 中,員工找資料平均浪費 20% 的工作時間。
賺錢邏輯:幫企業建立 RAG 知識庫的 SaaS 服務。客戶上傳文件 → 自動分片+索引 → 員工/客戶直接問問題就能得到答案。按月收費或按查詢次數收費。這是 2025-2026 最熱的 AI 落地方向之一。
RAG 中最值錢的環節不是生成(大模型都能做),而是重排— 從一堆看似相關的內容中挑出真正有價值的。這和策展人、編輯、顧問的價值一模一樣:信息不缺,缺的是「幫你挑出最重要的那三條」。
賺錢邏輯:在任何信息過載的領域(投資研報、法律判例、醫學文獻),做「AI 重排」服務。不是給客戶更多資訊,而是幫他們從海量資訊中精準挑出最相關的 3 條。這就是「判斷力即服務」。
RAG 系統的好壞,80% 取決於 Embedding 的品質。通用的 Embedding 模型對特定行業的術語和語境理解有限。例如「蘋果」在科技公司知識庫中應該指 Apple,在農業知識庫中應該指水果。
賺錢邏輯:為特定行業微調 Embedding 模型(Fine-tuned Embedding as a Service)。法律、醫療、金融等行業的專業術語和語義關係,通用模型抓不準。誰的 Embedding 最懂這個行業,誰的 RAG 就最準,客戶就最離不開你。
影片中簡單帶過的「分片」其實是 RAG 系統中最被低估的環節。切太大,召回不精準;切太小,語境丟失。不同類型的文檔(法律合約、技術文件、對話紀錄)需要完全不同的分片策略。
賺錢邏輯:開發智能分片工具 — 根據文檔類型自動選擇最佳分片策略。這看起來是小工具,但直接影響 RAG 系統的最終效果,是 AI 基礎設施中的關鍵一環。
RAG 的真正意義不在技術,而在於它揭示了一個普世規律:智慧不是記住所有事情,而是在被問到時能快速找到最相關的那幾條。
費曼說「你不需要知道所有事情,你只需要知道去哪裡找」。諸葛亮不是最博學的人,但他是最會「召回」和「重排」的人。Google 不生產任何內容,但它是最強的「檢索增強」系統。
在 AI 時代,這個規律更加放大:大模型的「知識」(參數)是有限的,但「可檢索的知識」(外部資料庫)是無限的。RAG 把大模型從一個「什麼都知道一點但都不精確」的通才,變成了一個「問什麼就能精準查到並回答」的專家。這也是人類應該學習的方式 — 不要試圖記住所有東西,而是建立一個好的「個人知識庫」和「檢索系統」。
原始字幕檔:阿貴寶典/原始資料/RAG工作機制詳解-語音辨識字幕.txt