你是不是也遇到過這種情況:調了半天RAG系統,離線指標好看得不行,一上線就被用戶罵“智障”。
問題出在哪?不是模型不行,是你的評估方式還在“實驗室階段”。這篇來自AI開發者Tahir Nawaz的指南,把生產環境下的RAG評估拆得明明白白。
我讀完最大的感受:原來我們一直用錯了尺子。
先看最核心的矛盾。學術界的RAG評估喜歡算“檢索召回率”——向量庫里存的正確答案,系統找回了幾個。但生產環境里沒有標準答案庫。用戶問的是“上次合同續簽的價格條款在哪”,你拿什么匹配?
所以第一步必須接受:離線指標只能當參考,上線后的真實反饋才是金標準。
那怎么測?Tahir給出了五個關鍵維度,每個都值得單獨展開。
一、檢索相關性
很多人以為檢索就是比向量相似度。但生產級評估要區分三種情況:完全命中、部分相關、完全跑偏。
“完全命中”的意思是,檢索回來的文檔段落里,確實包含用戶問題需要的全部信息。“部分相關”則是文檔提到了相關主題,但沒有直接回答用戶問題的關鍵細節。
Tahir強調,部分相關是最容易被忽視的坑。因為看起來分數還不錯,實際上用戶拿到的是半成品答案。
他的建議是:針對查詢日志做人工抽樣標注。找5-10個典型問題,手動判斷檢索結果屬于哪一檔,建立你業務場景下的“相關性基線”。
別用通用數據集的那套標準,你的客服問題和法律合同檢索完全不是一個難度。
二、答案忠實度
這是RAG系統最致命的弱點,也是Tahir花最多篇幅講的部分。
“忠實度”指的是生成的答案是否嚴格基于檢索到的文檔,而不是模型的“自由發揮”。大語言模型有個臭毛病——當檢索結果不夠好時,它會自己腦補。而且腦補得特別像真的。
Tahir引用了他們團隊的實驗數據:在文檔庫信息不完整的情況下,有42%的答案出現了“幻覺式補充”。模型引用了根本不存在的段落編號,或者編造了合同里沒有的條款。
怎么測?用“逐句核驗法”。把生成答案拆成單句,每一句都要在檢索文檔里找到原文支撐。找不到的,標紅。
他還提到一個務實的做法:讓另一個大模型當裁判(LLM-as-a-Judge)。給裁判模型同時看答案和檢索文檔,讓它逐句標注“有據可查”還是“疑似編造”。
但這招有成本,且裁判模型自己也可能犯錯。Tahir的建議是:只用它做初篩,可疑的答案轉人工復核。
三、答案完整性
忠誠但殘缺的答案,用戶也不滿意。
完整性評估要回答:這個答案有沒有覆蓋用戶問題的所有關鍵信息點?
舉個例子,用戶問的是“產品A的退貨政策和運費承擔規則”,系統只回答了退貨政策。忠實度滿分,完整性零分。
Tahir提出用“信息覆蓋矩陣”來量化。先拆解用戶的輸入問題,列出所有信息需求點;再檢查答案是否逐一回應。
他在實踐中發現,多輪對話場景下完整性最容易出問題。用戶追問三四個回合后,模型經常忘記前面提到的約束條件。
四、時延和成本
這可能是技術人員最不愛聽但產品經理最關心的部分。
“如果你的RAG系統回答準確率100%,但每次回答要等12秒,用戶早跑了。”Tahir這句話說得直接。
生產級評估必須同時記錄端到端時延和token消耗。他給出了一個參考指標:從用戶發問到最后返回答案,95%的請求要在3秒內完成。
成本方面,Tahir建議記錄每次查詢的“檢索token數”和“生成token數”,算出單次查詢成本。這個數據積累起來,才知道優化檢索策略到底省了多少錢。
他特別提醒:別為了省錢把top-k設太小。k=3和k=8的忠實度可能差出一個數量級。
五、用戶反饋閉環
這是Tahir認為最關鍵也最容易被跳過的一環。
“你的評估系統再精密,也不如在答案下面放一個按鈕。”
他描述了自己團隊的做法:收集用戶點踩的答案,按周做回歸分析。結果發現了幾個直覺之外的規律——用戶對“啰嗦”的容忍度遠低于“簡潔”,即使啰嗦的答案信息更全。
他們還發現,特定時間段的檢索質量會系統性下降。排查下來,是因為那段時間文檔庫在做增量更新,向量索引的刷新有延遲。
這些洞察,任何離線評估都給不了。
把五個維度串起來看,Tahir給的框架其實是一套分層評估體系:底層是技術指標(檢索相關性、時延成本),中層是內容質量(忠實度、完整性),頂層是用戶感知(反饋數據)。
三層缺一不可。
他最后還提了一個容易被忽略的點:評估體系本身需要版本化管理。
什么意思?你的檢索策略會變,知識庫會膨脹,用戶問法會遷移。一個月前定下的“及格線”,今天可能已經不適用了。
Tahir的建議是把評估配置寫成代碼,納入版本控制。每次調整閾值、替換模型、更改prompt模板,都在評估配置里留下記錄。這樣出了問題才能回溯。
讀完這篇指南,我個人最大的收獲是重新理解了“評估”這個詞。它不是上線前跑一次的檢測環節,而是伴隨系統全生命周期的觀測系統。
實驗室里的完美分數不值得追求,生產環境里的真實反饋才值得投入精力優化。 Tahir用整篇文章反復在說這件事——別在錯誤的方向上用力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.