<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<ruby id="j15qt"></ruby>

<style id="j15qt"><rp id="j15qt"></rp></style>

<cite id="j15qt"><nav id="j15qt"></nav></cite>

<noframes id="j15qt"><code id="j15qt"></code></noframes>

<cite id="j15qt"></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

生產級RAG評估到底該看什么

2026-06-02 01:03:16　來源: 摸魚算法

北京舉報

0

分享至

你是不是也遇到過這種情況：調了半天RAG系統，離線指標好看得不行，一上線就被用戶罵“智障”。

問題出在哪？不是模型不行，是你的評估方式還在“實驗室階段”。這篇來自AI開發者Tahir Nawaz的指南，把生產環境下的RAG評估拆得明明白白。

我讀完最大的感受：原來我們一直用錯了尺子。

先看最核心的矛盾。學術界的RAG評估喜歡算“檢索召回率”——向量庫里存的正確答案，系統找回了幾個。但生產環境里沒有標準答案庫。用戶問的是“上次合同續簽的價格條款在哪”，你拿什么匹配？

所以第一步必須接受：離線指標只能當參考，上線后的真實反饋才是金標準。

那怎么測？Tahir給出了五個關鍵維度，每個都值得單獨展開。

一、檢索相關性

很多人以為檢索就是比向量相似度。但生產級評估要區分三種情況：完全命中、部分相關、完全跑偏。

“完全命中”的意思是，檢索回來的文檔段落里，確實包含用戶問題需要的全部信息。“部分相關”則是文檔提到了相關主題，但沒有直接回答用戶問題的關鍵細節。

Tahir強調，部分相關是最容易被忽視的坑。因為看起來分數還不錯，實際上用戶拿到的是半成品答案。

他的建議是：針對查詢日志做人工抽樣標注。找5-10個典型問題，手動判斷檢索結果屬于哪一檔，建立你業務場景下的“相關性基線”。

別用通用數據集的那套標準，你的客服問題和法律合同檢索完全不是一個難度。

二、答案忠實度

這是RAG系統最致命的弱點，也是Tahir花最多篇幅講的部分。

“忠實度”指的是生成的答案是否嚴格基于檢索到的文檔，而不是模型的“自由發揮”。大語言模型有個臭毛病——當檢索結果不夠好時，它會自己腦補。而且腦補得特別像真的。

Tahir引用了他們團隊的實驗數據：在文檔庫信息不完整的情況下，有42%的答案出現了“幻覺式補充”。模型引用了根本不存在的段落編號，或者編造了合同里沒有的條款。

怎么測？用“逐句核驗法”。把生成答案拆成單句，每一句都要在檢索文檔里找到原文支撐。找不到的，標紅。

他還提到一個務實的做法：讓另一個大模型當裁判（LLM-as-a-Judge）。給裁判模型同時看答案和檢索文檔，讓它逐句標注“有據可查”還是“疑似編造”。

但這招有成本，且裁判模型自己也可能犯錯。Tahir的建議是：只用它做初篩，可疑的答案轉人工復核。

三、答案完整性

忠誠但殘缺的答案，用戶也不滿意。

完整性評估要回答：這個答案有沒有覆蓋用戶問題的所有關鍵信息點？

舉個例子，用戶問的是“產品A的退貨政策和運費承擔規則”，系統只回答了退貨政策。忠實度滿分，完整性零分。

Tahir提出用“信息覆蓋矩陣”來量化。先拆解用戶的輸入問題，列出所有信息需求點；再檢查答案是否逐一回應。

他在實踐中發現，多輪對話場景下完整性最容易出問題。用戶追問三四個回合后，模型經常忘記前面提到的約束條件。

四、時延和成本

這可能是技術人員最不愛聽但產品經理最關心的部分。

“如果你的RAG系統回答準確率100%，但每次回答要等12秒，用戶早跑了。”Tahir這句話說得直接。

生產級評估必須同時記錄端到端時延和token消耗。他給出了一個參考指標：從用戶發問到最后返回答案，95%的請求要在3秒內完成。

成本方面，Tahir建議記錄每次查詢的“檢索token數”和“生成token數”，算出單次查詢成本。這個數據積累起來，才知道優化檢索策略到底省了多少錢。

他特別提醒：別為了省錢把top-k設太小。k=3和k=8的忠實度可能差出一個數量級。

五、用戶反饋閉環

這是Tahir認為最關鍵也最容易被跳過的一環。

“你的評估系統再精密，也不如在答案下面放一個按鈕。”

他描述了自己團隊的做法：收集用戶點踩的答案，按周做回歸分析。結果發現了幾個直覺之外的規律——用戶對“啰嗦”的容忍度遠低于“簡潔”，即使啰嗦的答案信息更全。

他們還發現，特定時間段的檢索質量會系統性下降。排查下來，是因為那段時間文檔庫在做增量更新，向量索引的刷新有延遲。

這些洞察，任何離線評估都給不了。

把五個維度串起來看，Tahir給的框架其實是一套分層評估體系：底層是技術指標（檢索相關性、時延成本），中層是內容質量（忠實度、完整性），頂層是用戶感知（反饋數據）。

三層缺一不可。

他最后還提了一個容易被忽略的點：評估體系本身需要版本化管理。

什么意思？你的檢索策略會變，知識庫會膨脹，用戶問法會遷移。一個月前定下的“及格線”，今天可能已經不適用了。

Tahir的建議是把評估配置寫成代碼，納入版本控制。每次調整閾值、替換模型、更改prompt模板，都在評估配置里留下記錄。這樣出了問題才能回溯。

讀完這篇指南，我個人最大的收獲是重新理解了“評估”這個詞。它不是上線前跑一次的檢測環節，而是伴隨系統全生命周期的觀測系統。

實驗室里的完美分數不值得追求，生產環境里的真實反饋才值得投入精力優化。 Tahir用整篇文章反復在說這件事——別在錯誤的方向上用力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

媒體：繼稻城亞丁后湖北神農架也被指“圈路收費”，游客被迫多繞百公里

澎湃新聞 2026-06-03 17:13:12
25681 跟貼 25681
湖南一老人正走路遭男子揮掌擊打，男子走開十多米突然折返將老人打倒

大風新聞 2026-06-04 05:06:25
113 跟貼 113

2026年全國高考報名人數為1290萬人

央視新聞客戶端 2026-06-03 14:02:58
20800 跟貼 20800

業主多次投訴小區違建別墅結果房屋越建越高各方回應

貴州日報 2026-06-03 19:33:06
1019 跟貼 1019
新賽季國際賽場首秀，中國女排0比3不敵捷克女排

澎湃新聞 2026-06-03 21:16:36
367 跟貼 367

“讓人無語！”小區電瓶車掃碼充電要過五關，關關都有廣告，一不小心就被引導去充值

都市快報橙柿互動 2026-06-03 16:48:38
1309 跟貼 1309

糾結的歐洲人：邊說"不能關起大門" 邊說"不能怕中國"

澎湃新聞 2026-06-04 07:21:10
76 跟貼 76
全球首個！荔枝×龍眼雜交新品種“懷石”來了：是荔枝，卻有龍眼味

大象新聞 2026-06-03 18:04:43
155 跟貼 155

七戰全勝中國民間少年隊橫掃歐洲豪門

新快報新聞 2026-06-04 08:03:02
146 跟貼 146
成龍向全球發出入境游邀約：歡迎感受無濾鏡的真實中國

新京報 2026-06-01 12:09:13
430 跟貼 430
沈陽王厚元餃子店員拿吃飯的碗給顧客彈煙灰，“墻上掛著禁止吸煙”，品牌方回應：將處理

大風新聞 2026-06-04 11:15:10
0 跟貼 0
年度最強打工人！杭州38歲會計師跳槽甲方公司，支付379萬元5.5折認購30萬股，不到半年暴漲至6200萬元

都市快報橙柿互動 2026-06-03 17:53:25
61 跟貼 61
凌晨！美聯儲，重大發布

證券時報 2026-06-04 07:41:08
26 跟貼 26
印度極限高溫，“每天熱死3000人”

半島官網 2026-06-04 09:31:14
125 跟貼 125
初步結果顯示韓國執政黨鎖定地方選舉勝局

國際在線 2026-06-04 06:26:12
66 跟貼 66
凌晨，三明這里有人被人困

最三明 2026-06-04 12:12:58
0 跟貼 0
31條中日航線5月取消全部航班

財聯社 2026-06-03 15:56:05
0 跟貼 0
家里來了一窩“憤怒的小鳥” 表情嚴肅眼睛瞪得像銅鈴網友：這4只看著都很不好惹

荔枝新聞 2026-06-04 10:17:58
1 跟貼 1
全國健身錦標賽冠軍！湖北商貿學院老師實現賽事大滿貫

極目新聞 2026-06-04 09:58:44
1 跟貼 1
秦晉之好再添文旅新舉壺口瀑布6月一票通兩省

大象新聞 2026-06-04 10:47:05
22 跟貼 22
挪威深海發現載有中國瓷器的18世紀沉船：大量青花瓷碗重見天日，文物達數千件，目前正開展船只溯源工作并努力還原歷史真相

大風新聞 2026-06-02 12:15:18
0 跟貼 0
一輛新能源車已經增重到3噸，何時是個頭？

都市快報橙柿互動 2026-06-04 08:26:28
0 跟貼 0
滴滴司機買彩票中6022萬，忍了4個月才敢說

網約車觀察室 2026-06-04 12:19:17
0 跟貼 0
“我們用AI確認過了，是罌粟”

大象新聞 2026-06-04 12:15:05
0 跟貼 0
買34層樓只建到32層，13年維權仍未拿到全額退款

知頓 2026-06-04 12:12:54
0 跟貼 0

6億成本，拖了9年，周星馳《美人魚2》被兩個男主給坑慘了

6億成本，拖了9年，周星馳《美人魚2》被兩個男主給坑慘了

草莓信箱

2026-06-03 10:40:09

火箭一夜4消息！賣申京換切特+退出字母哥爭奪戰？8換2KD評分更新

火箭一夜4消息！賣申京換切特+退出字母哥爭奪戰？8換2KD評分更新

鍋子籃球

2026-06-03 14:03:46

美國人發現，美國近三十年來最大外交失誤，可能就是阻止中國統一

美國人發現，美國近三十年來最大外交失誤，可能就是阻止中國統一

流史歲月

2026-05-31 12:00:13

美媒：中國最新一代59艘驅逐艦，或已開工建造，驅逐艦或將達76艘，規模或將超美國海軍

美媒：中國最新一代59艘驅逐艦，或已開工建造，驅逐艦或將達76艘，規模或將超美國海軍

南海的波濤

2026-06-04 09:56:35

霸占55年絕不慣著！國防部硬氣發聲，中業島這根刺該拔了！

霸占55年絕不慣著！國防部硬氣發聲，中業島這根刺該拔了！

你的雷達站

2026-05-23 14:34:51

李一桐再次展現少婦風韻，身穿紫色薄紗連衣裙盡顯女神魅力！

李一桐再次展現少婦風韻，身穿紫色薄紗連衣裙盡顯女神魅力！

說不盡的人心

2026-06-03 21:34:08

日媒：去年人口超1.2億的日本的新生嬰兒數僅為67萬

日媒：去年人口超1.2億的日本的新生嬰兒數僅為67萬

隨波蕩漾的漂流瓶

2026-06-03 14:18:53

土倫杯4-1大勝日本U19，葡萄牙U20有多強？多人已在歐洲球隊站穩

土倫杯4-1大勝日本U19，葡萄牙U20有多強？多人已在歐洲球隊站穩

硬腿子聊個球

2026-06-04 06:00:09

日本數到手抖！遼寧艦三天170架次，殲35還在拖后腿，戴高樂號連夜退出了群聊

日本數到手抖！遼寧艦三天170架次，殲35還在拖后腿，戴高樂號連夜退出了群聊

揚子的故事屋

2026-06-04 09:48:32

我們離“純電時代”，還差300公里

我們離“純電時代”，還差300公里

汽車公社

2026-06-04 08:36:53

美國公司心真大，想重返月球，發動機外包給印度，結果被炸回原形

美國公司心真大，想重返月球，發動機外包給印度，結果被炸回原形

王新喜

2026-06-02 13:23:55

曼聯腸子悔青！7700 萬棄將離隊就爆發，名宿臉都被打腫了

曼聯腸子悔青！7700 萬棄將離隊就爆發，名宿臉都被打腫了

瀾歸序

2026-06-04 07:03:38

特斯拉被裁，賠償N+3總計63.25萬元

特斯拉被裁，賠償N+3總計63.25萬元

螞蟻大喇叭

2026-06-03 16:48:27

女技師漂亮，打賞她300塊小費，小伙被拘留

女技師漂亮，打賞她300塊小費，小伙被拘留

阿振觀點

2026-06-02 08:59:32

小馬云樣貌大變，和女友高調官宣戀情，曬合照秀恩愛

小馬云樣貌大變，和女友高調官宣戀情，曬合照秀恩愛

微微熱評

2026-05-28 14:37:46

油價大逆轉！國內油價調整時間定了，6月4日歷史罕見油價大幅下調

油價大逆轉！國內油價調整時間定了，6月4日歷史罕見油價大幅下調

有料財經

2026-06-02 19:38:40

人均600萬到欠400億，毀掉＂天下第一村＂的不是別人，是他們自己

人均600萬到欠400億，毀掉＂天下第一村＂的不是別人，是他們自己

聞香閣

2026-04-11 08:40:49

夏洛特公主風范十足，活動看管倆兄弟，眉眼神態復刻伊麗莎白女王

夏洛特公主風范十足，活動看管倆兄弟，眉眼神態復刻伊麗莎白女王

譯言

2026-06-04 11:34:58

1735年雍正駕崩后，25歲的弘歷龍椅還沒坐穩，就緊急下了一道密旨

1735年雍正駕崩后，25歲的弘歷龍椅還沒坐穩，就緊急下了一道密旨

飯小妹說歷史

2026-05-31 09:45:50

手里有100萬現金存款算什么檔次？銀行員工吐露實情，結果很現實

手里有100萬現金存款算什么檔次？銀行員工吐露實情，結果很現實

老特有話說

2026-06-02 16:07:00

致力于用最前沿的AI技術，換取更多發呆時間的三十歲青年。

4552文章數 46關注度

往期回顧全部

科技要聞

歷史最大IPO！馬斯克下周沖擊萬億富豪

頭條要聞

男子帶20萬練功券約見女主播發生關系后騙走對方1萬

頭條要聞

男子帶20萬練功券約見女主播發生關系后騙走對方1萬

體育要聞

王俊杰11前板成第一尖刀媒體人：獨一檔

娛樂要聞

奚夢瑤頭紗上的古董發卡也是四太的

財經要聞

SpaceX發行價135美元 6月12日上市交易

汽車要聞

北京現代5月銷量強勢反彈:國內17065輛出口環比翻倍

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

家居

健康

手機

軍事航空

《幸福工廠》更新1.2上線好評開放世界工廠建設

家居要聞

220平對味兒家空間情緒宅

江畔輕奢觀云大宅
流線型輪廓包容多元身形
自信舒展高背座椅

違規干細胞抗衰美容，為何肆無忌憚

手機要聞

T系列回家首測！盧偉冰帶著小米17T Pro出門掃街：徠味十足

軍事要聞

美眾議院要求特朗普停止對伊動武并撤軍

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：国产成人8X人网站视频| 精品一卡2卡三卡4卡乱码精品视频| 中文字幕乱码亚洲无线| 无码中文av波多野结衣一区| 亚洲中文无码线在线观看| [国产剧情]麻豆正在播放| 浮力影院①线wy55www| 国产精品成人一区二区三区| 日韩精品视频一二三四区| av一区二区三区| 一本久久a久久精品综合| 在线观看免费国产精品| 亚洲欧美偷拍另类A∨| 亚洲资源站| 国产三级精品福利久久| 人人妻人人做人人爽夜欢视频| 国产午夜精品一区二区三| 亚洲高清无码中文| 亚洲视频中文字幕中| 国产99久久无码精品| 免费av深夜在线观看| 永久天堂网 av手机版| 国产流白浆一区二区三区免费视频| 国产二区三区视频在线| 欧美日韩精品一区二区三区高清视频| 传媒视频??高清一区传媒| 95色综合| 亚洲精品tv久久久久久久久久 | 亚洲国产精品羞羞| 亚洲va韩国va欧美va| 丁香AV中文在线观看| 99热国产这里只有精品无卡顿"| 992Tv视频国产精品| 欧美高清精品一区二区| 国产成人一区二区三区视频免费| 超碰免费在线观看| 久久国产精品成人免费| 乐都县| 日本高清色WWW在线安全| 精品少妇人妻一区二区| 久久亚洲精品国产精品婷婷|

<cite id="5zjui"></cite>