網易首頁 > 網易號 > 正文申請入駐

Anthropic內部95%業務分析交給Claude，秘訣竟然不在更強模型

2026-06-04 16:08:15　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】都以為讓AI查數據省事，結果它答得漂亮你卻不敢信。Anthropic最近說這事有解了，靠的是一套和代碼無關的「笨功夫」。

讓AI查數據，它答得頭頭是道，你卻不敢信。

剛剛，這個讓無數搞AI數據分析的人最頭疼的事，Anthropic給出了自己的解法，還在官方博客甩出兩個95%的數字：

公司內部95%的業務分析查詢，已由Claude自動完成；

整體準確率約95%。

https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude?utm_source=chatgpt.com

這篇博客直指AI數據查詢的核心痛點：答案看著對，卻不敢輕易相信，不知哪里可能埋了雷。

Anthropic官方還為這種情況起了個名，叫「虛假的精確感」（false sense of precision）：

把Claude直接接上數據倉庫放手讓它跑，它可能會回復你一個格式漂亮、語氣篤定，卻悄悄用錯了表的答案。

這篇博客的作者來自Anthropic數據科學與數據工程團隊，把重復機械的取數活交給Claude后，他們騰出手，去做因果建模、預測、機器學習等事情。

他們在博客中提到的最反常識的一個觀點就是：讓模型準確查數，最難的根本不在寫SQL。

結構化查詢語言（SQL）就是跟數據庫要數據用的語言，過去會寫它，是數據分析的一道門檻。

可對今天的大模型來說，把人話翻成SQL早已不是主要瓶頸，真正難的是在寫SQL之前那一步。

三類常見錯誤

數據本身是一筆「糊涂賬」

Anthropic認為數據分析，難就難在：數據本身是一筆「糊涂賬」。

同一個問題，常常能對上好幾份長得差不多的數據，到底該用哪一份，說不清。

AI真正要做對的，是從這一堆數據中挑出你要找的那份。這一步搞對了，后面寫SQL把數取出來，幾乎是順理成章的事。

Anthropic將模型分析數據出錯的主要原因，歸為如下三類。

分析類AI的真正難點，是把用戶問題映射到正確且最新的數據實體。

第一類，概念和實體對不上。

一個數據模型里有幾百個看著都能用的字段，背后可能藏著上百萬個。你問「有多少活躍用戶」，什么動作算活躍？算不算欺詐賬號？回溯窗口取7天還是30天？模型在這堆近義選項里，挑不出對的那個。

第二類，數據過時。

數據源、業務定義、表結構天天在變。模型腦子里的知識慢慢「生銹」，開始返回「細微處出錯」的答案。這種錯最難發現，看著全對，其實早就不對了。

第三類，檢索失敗。

信息其實就躺在模型里，標注也完整。可搜索空間太大，它壓根沒翻到。

把它和寫代碼對比，差別一下就清楚了。寫代碼是開放題，文檔和單元測試天然擋著幻覺。數據分析往往只有一個正確答案、一個正確來源，而且沒有任何確定性的辦法證明它對。

所以Anthropic的結論是：分析的準確率，是上下文和驗證的問題，并非模型會不會寫代碼的問題。

從21%到95%

Anthropic在中間做了什么

為了解決這三類錯誤，Anthropic搭了一套東西，起名叫智能體分析棧（agentic analytics stack），一共四層，每層專治一類問題。

Anthropic智能體分析棧結構圖：數據基礎層、事實來源、技能、驗證四層各司其職。

第一層，數據基礎層（data foundations）：數據倉庫本身，包括數據模型、轉換、測試、表，以及描述它們的元數據。核心動作是把同一個概念收斂到唯一一張權威表，專治「概念-實體歧義」，同時也構建了預防數據口徑過時的第一道工程防線。

Anthropic強調，維度建模等傳統數據工程手藝，在AI時代同樣關鍵。

第二層，事實來源（sources of truth）：模型查數時參照的幾個權威來源，按可信度從高到低是：語義層＞血緣與轉換圖＞查詢語料＞業務上下文。它的作用就是把用戶嘴里模糊的問法，翻譯成系統里唯一正確、有人維護的數據口徑。

前兩層合起來，專門解決「概念對不上」的痛點。

第三層，技能（Skills）：把資深分析師的查詢流程固化成可復用的模塊，主治「檢索失敗」，保證模型可靠地找到、并用對那個答案。

第四層，驗證（validation）：離線評測、消融實驗、在線驗證，再加上維護流程，查出三類錯里還有哪一類在漏，也是對抗「數據過時」的主要方式。

在搭這幾層的過程里，Anthropic還撞見了兩個反直覺的結果。

一個是偷懶的代價。

他們試過讓大模型自動從原始表生成指標定義，結果生成的定義把想消除的歧義又原樣編碼了回去，在評測里直接成了負分。最后只能改回老辦法：Claude起草文檔，定義由人來拍板。

另一個更出乎意料。把幾千條歷史SQL直接喂給模型檢索，準確率只提升了不到1個百分點。

這四層里，Anthropic披露的最大準確率躍遷來自Skills。

事實來源是聲明式知識，告訴模型每個指標是什么意思；Skills是程序性知識，告訴它先查哪、按什么順序查、一份合格分析長什么樣。

形態上，Skills就是一個裝著SKILL.md和說明、腳本、資源的文件夾，Claude按需讀取。這個機制在Anthropic官方文檔和GitHub倉庫中都能交叉印證。

效果有多驚人？

根據Anthropic內部披露數字，沒有Skills，Claude在內部評測里的準確率不超過21%；加上Skills之后，穩定沖到95%以上，部分領域接近99%。

從21%到95%，差的不是更強的模型，是這套結構。

95%的數字背后

這套東西「會腐爛」

但95%的準確率，并沒有保持太久。

Anthropic發現，這套系統會過期：他們眼睜睜看著離線準確率，一個月內從約95%掉到約65%。

背后原因是，數據模型每天都在變，描述它的Skill文檔沒人管，因此幾周后它就開始說錯話。

于是Anthropic團隊就把維護當成正經工程來做：Skill文檔和數據模型塞進同一個代碼倉庫，改模型的那個代碼合并請求（PR），順手把對應文檔也改了。現在約90%的數據模型改動，都帶著一處Skill更新一起提交。

他們還做過一個負面實驗。

給智能體開了全文檢索（grep）權限，讓它去翻歷史SQL文件，還在運行記錄里確認它確實一條條讀了。結果準確率上下波動不到1個點。更要命的是，答錯的那些題里，約80%的正確答案，其實就躺在它剛讀過的語料里。它看見了，還是沒用上。

那一刻Anthropic想明白了：真正的瓶頸是結構，不是拿不拿得到資料。這個判斷，直接改寫了他們之后幾個月的路線圖。

找對結構，能把準確率頂到一個高度。可最后那幾個百分點，得拿真金白銀去換。

比如，加一道對抗式審查（adversarial review），讓模型反復死磕自己的假設，評測準確率能再漲6%。代價是token多燒32%，延遲高72%。

95%不是搭出來的，是養出來的。一旦松手，幾周就可能塌回去。

參考資料：

https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

編輯：元宇

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

詞元交易與全球算力大流通

經濟觀察報 2026-05-16 19:06:25
0 跟貼 0
騰訊的Agent底牌，這次全攤開了

新智元 2026-06-08 19:21:04
12 跟貼 12

事關數據賦能人工智能發展國家層面首次系統部署

界面新聞 2026-06-08 17:55:07
362 跟貼 362

別再問追沒追上：中美大模型的真實差距在這里

虎嗅APP 2026-06-08 18:39:21
0 跟貼 0
重構跨域RL框架！理論驅動「雙重對齊」讓跨域遷移「質變」

機器之心Pro 2026-04-02 14:58:04
0 跟貼 0

“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0

OpenAI官宣已遞交IPO申請文件

財聯社 2026-06-09 07:00:09
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
8點1氪丨蘋果推出全新Siri AI；ROKID回應“智能眼鏡偷拍空姐”事件；OpenAI秘密提交IPO文件

36氪 2026-06-09 08:26:09
0 跟貼 0
媒體：伊朗直接反擊以色列打破“底線”了

中國新聞周刊 2026-06-08 19:52:03
9652 跟貼 9652
太突然！全國門店已全部關停！網友：還沒有去過就沒了

南寧新聞網 2026-06-08 09:27:00
807 跟貼 807
領導行為修養：數智時代的“行”與“形”重構可信領導力

經濟觀察報 2026-05-25 12:44:14
0 跟貼 0
香港老戲骨李家鼎與親兒子簽法律文件斷絕關系，時間精確到分鐘！

趣娛情報站 2026-06-06 19:37:51
1 跟貼 1
張克任鎮江市代理市長

江蘇新聞 2026-06-08 20:36:00
49 跟貼 49
190萬粉絲數學老師已四年參加高考：做題做到汗流浹背

大風新聞 2026-06-08 19:03:09
3846 跟貼 3846
“大模型吞噬我的職業”帖爆火后，博主挑了這些評論來統一回復

碳基打工人 2026-06-08 19:02:06
0 跟貼 0
解密UFO文檔詳解

芮予豬豬 2026-06-09 02:48:53
13 跟貼 13
中國女排3-0塞爾維亞！數據出爐，不得不承認3個事實，莊宇珊14分

我很乖 2026-06-08 03:51:54
0 跟貼 0
蘇州網友投訴高考期間有人深夜“騎車炸街”，交警：事發區域不禁摩，凌晨3點仍在驅離

極目新聞 2026-06-08 18:13:48
60 跟貼 60
豆包緊急澄清"收費"傳聞國外大模型付費轉化僅為5%

紅星資本局 2026-06-08 18:05:37
1624 跟貼 1624
爆火Codex封神！4個零基礎職場技巧，讓你工作效率直接翻倍

秋葉大叔 2026-06-09 07:40:15
0 跟貼 0
人手一個數據庫，Kimi背后這套AI基建到底有多能扛？

量子位 2026-05-14 22:54:30
27 跟貼 27
嘉美包裝一字跌停！最新公告：追覓創始人俞浩旗下平臺質押2.47億股

紅星資本局 2026-06-08 21:20:19
42 跟貼 42
港媒分析大陸巡航行動：對手挑釁一次大陸就挺進一次

海峽導報社 2026-06-08 09:54:23
33 跟貼 33
上游調查 | App開屏廣告比“牛皮癬”還霸道：搖一搖就跳轉，充錢也關不掉

上游新聞 2026-06-08 15:36:08
1274 跟貼 1274
乘聯分會：全國乘用車市場零售151.0萬輛同比下降22.1%

財聯社 2026-06-08 16:10:09
569 跟貼 569
挪威沉船發現大量青花瓷：所有人沸騰了

上觀新聞 2026-06-06 20:28:05
487 跟貼 487
聚焦｜虛驚一場！丹麥國腳埃里克森再次在比賽中暈倒

北青網-北京青年報 2026-06-08 10:09:18
444 跟貼 444
數字重慶建設，給新重慶帶來了哪些變化

上游新聞 2026-06-09 07:55:06
0 跟貼 0
美國軍事黑名單新增：阿里、百度、宇樹、比亞迪等

云頭條 2026-06-09 05:24:01
3 跟貼 3
理想狂砸150億研發！連甩12篇頂會論文，把自動駕駛的“家底”都亮出來了

車東西 2026-06-08 20:17:03
6 跟貼 6
復旦創智等提出Prompt Reinjection，提升文生圖指令遵循能力

機器之心Pro 2026-06-08 19:32:52
0 跟貼 0
微信灰度測試朋友圈搜索功能：支持按朋友或發布時間篩選

大象新聞 2026-06-09 07:31:02
2 跟貼 2
國產大模型第一梯隊迎新勢力：云知聲發了個原生Agent大模型，再次捅破行業天花板

智東西 2026-06-08 18:51:32
0 跟貼 0
世界女排聯賽首周，中國隊4戰3勝

環球網資訊 2026-06-09 06:58:07
1 跟貼 1
鐵路部門就“列車開了7小時到山海關折返”致歉！現正常運行

南方都市報 2026-06-08 11:33:07
151 跟貼 151
比亞迪“鄭州號”攜4000余輛新能源車抵達澳大利亞，包括海獅07、元UP等多款在澳熱門車型

大象新聞 2026-06-08 15:51:05
552 跟貼 552
林詩棟領銜出征薩格勒布，達科、大藤沙月奪斯科普里站單打冠軍

大象新聞 2026-06-08 17:19:25
129 跟貼 129
做一人公司，就用這個模型

倪云華洞察 2026-06-05 20:53:07
4 跟貼 4

新智元

AI產業主平臺領航智能+時代

15424文章數 66920關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

本地

健康

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Anthropic內部95%業務分析交給Claude，秘訣竟然不在更強模型

一文看懂蘋果WWDC26：庫克告別，Siri重生

《奔跑吧》被指向江山文旅收850萬錄制費用 多方回應

《奔跑吧》被指向江山文旅收850萬錄制費用 多方回應

2026年世界杯？到底會是什么樣？

越扒越有！奔跑吧文旅合作費近兩千萬

俞浩深陷爭議 百億追覓誰來托底？

從真實事故場景出發 吉利銀河星艦7 EV硬核安全“超綱”了

態度原創

10,000元大獎等你拿！廣州城投地產IP形象設計大賽火熱開啟！以創意贏未來！

定了！深圳最大高鐵站，超130億元！

用楊柳青年畫的方式，打開天津

干細胞新規落地，打干細胞更容易還是更難了？

《奔跑吧》被指向江山文旅收850萬錄制費用多方回應

《奔跑吧》被指向江山文旅收850萬錄制費用多方回應

俞浩深陷爭議百億追覓誰來托底？

從真實事故場景出發吉利銀河星艦7 EV硬核安全“超綱”了