![]()
新智元報道
![]()
【新智元導讀】都以為讓AI查數據省事,結果它答得漂亮你卻不敢信。Anthropic最近說這事有解了,靠的是一套和代碼無關的「笨功夫」。
讓AI查數據,它答得頭頭是道,你卻不敢信。
剛剛,這個讓無數搞AI數據分析的人最頭疼的事,Anthropic給出了自己的解法,還在官方博客甩出兩個95%的數字:
公司內部95%的業務分析查詢,已由Claude自動完成;
整體準確率約95%。
![]()
https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude?utm_source=chatgpt.com
這篇博客直指AI數據查詢的核心痛點:答案看著對,卻不敢輕易相信,不知哪里可能埋了雷。
Anthropic官方還為這種情況起了個名,叫「虛假的精確感」(false sense of precision):
把Claude直接接上數據倉庫放手讓它跑,它可能會回復你一個格式漂亮、語氣篤定,卻悄悄用錯了表的答案。
這篇博客的作者來自Anthropic數據科學與數據工程團隊,把重復機械的取數活交給Claude后,他們騰出手,去做因果建模、預測、機器學習等事情。
他們在博客中提到的最反常識的一個觀點就是:讓模型準確查數,最難的根本不在寫SQL。
結構化查詢語言(SQL)就是跟數據庫要數據用的語言,過去會寫它,是數據分析的一道門檻。
可對今天的大模型來說,把人話翻成SQL早已不是主要瓶頸,真正難的是在寫SQL之前那一步。
三類常見錯誤
數據本身是一筆「糊涂賬」
Anthropic認為數據分析,難就難在:數據本身是一筆「糊涂賬」。
同一個問題,常常能對上好幾份長得差不多的數據,到底該用哪一份,說不清。
AI真正要做對的,是從這一堆數據中挑出你要找的那份。這一步搞對了,后面寫SQL把數取出來,幾乎是順理成章的事。
Anthropic將模型分析數據出錯的主要原因,歸為如下三類。
![]()
分析類AI的真正難點,是把用戶問題映射到正確且最新的數據實體。
第一類,概念和實體對不上。
一個數據模型里有幾百個看著都能用的字段,背后可能藏著上百萬個。你問「有多少活躍用戶」,什么動作算活躍?算不算欺詐賬號?回溯窗口取7天還是30天?模型在這堆近義選項里,挑不出對的那個。
第二類,數據過時。
數據源、業務定義、表結構天天在變。模型腦子里的知識慢慢「生銹」,開始返回「細微處出錯」的答案。這種錯最難發現,看著全對,其實早就不對了。
第三類,檢索失敗。
信息其實就躺在模型里,標注也完整。可搜索空間太大,它壓根沒翻到。
把它和寫代碼對比,差別一下就清楚了。寫代碼是開放題,文檔和單元測試天然擋著幻覺。數據分析往往只有一個正確答案、一個正確來源,而且沒有任何確定性的辦法證明它對。
所以Anthropic的結論是:分析的準確率,是上下文和驗證的問題,并非模型會不會寫代碼的問題。
從21%到95%
Anthropic在中間做了什么
為了解決這三類錯誤,Anthropic搭了一套東西,起名叫智能體分析棧(agentic analytics stack),一共四層,每層專治一類問題。
![]()
Anthropic智能體分析棧結構圖:數據基礎層、事實來源、技能、驗證四層各司其職。
第一層,數據基礎層(data foundations):數據倉庫本身,包括數據模型、轉換、測試、表,以及描述它們的元數據。核心動作是把同一個概念收斂到唯一一張權威表,專治「概念-實體歧義」,同時也構建了預防數據口徑過時的第一道工程防線。
![]()
Anthropic強調,維度建模等傳統數據工程手藝,在AI時代同樣關鍵。
第二層,事實來源(sources of truth):模型查數時參照的幾個權威來源,按可信度從高到低是:語義層>血緣與轉換圖>查詢語料>業務上下文。它的作用就是把用戶嘴里模糊的問法,翻譯成系統里唯一正確、有人維護的數據口徑。
前兩層合起來,專門解決「概念對不上」的痛點。
第三層,技能(Skills):把資深分析師的查詢流程固化成可復用的模塊,主治「檢索失敗」,保證模型可靠地找到、并用對那個答案。
第四層,驗證(validation):離線評測、消融實驗、在線驗證,再加上維護流程,查出三類錯里還有哪一類在漏,也是對抗「數據過時」的主要方式。
在搭這幾層的過程里,Anthropic還撞見了兩個反直覺的結果。
一個是偷懶的代價。
他們試過讓大模型自動從原始表生成指標定義,結果生成的定義把想消除的歧義又原樣編碼了回去,在評測里直接成了負分。最后只能改回老辦法:Claude起草文檔,定義由人來拍板。
另一個更出乎意料。把幾千條歷史SQL直接喂給模型檢索,準確率只提升了不到1個百分點。
這四層里,Anthropic披露的最大準確率躍遷來自Skills。
事實來源是聲明式知識,告訴模型每個指標是什么意思;Skills是程序性知識,告訴它先查哪、按什么順序查、一份合格分析長什么樣。
形態上,Skills就是一個裝著SKILL.md和說明、腳本、資源的文件夾,Claude按需讀取。這個機制在Anthropic官方文檔和GitHub倉庫中都能交叉印證。
效果有多驚人?
![]()
根據Anthropic內部披露數字,沒有Skills,Claude在內部評測里的準確率不超過21%;加上Skills之后,穩定沖到95%以上,部分領域接近99%。
從21%到95%,差的不是更強的模型,是這套結構。
95%的數字背后
這套東西「會腐爛」
但95%的準確率,并沒有保持太久。
Anthropic發現,這套系統會過期:他們眼睜睜看著離線準確率,一個月內從約95%掉到約65%。
背后原因是,數據模型每天都在變,描述它的Skill文檔沒人管,因此幾周后它就開始說錯話。
于是Anthropic團隊就把維護當成正經工程來做:Skill文檔和數據模型塞進同一個代碼倉庫,改模型的那個代碼合并請求(PR),順手把對應文檔也改了。現在約90%的數據模型改動,都帶著一處Skill更新一起提交。
他們還做過一個負面實驗。
給智能體開了全文檢索(grep)權限,讓它去翻歷史SQL文件,還在運行記錄里確認它確實一條條讀了。結果準確率上下波動不到1個點。更要命的是,答錯的那些題里,約80%的正確答案,其實就躺在它剛讀過的語料里。它看見了,還是沒用上。
那一刻Anthropic想明白了:真正的瓶頸是結構,不是拿不拿得到資料。這個判斷,直接改寫了他們之后幾個月的路線圖。
找對結構,能把準確率頂到一個高度。可最后那幾個百分點,得拿真金白銀去換。
比如,加一道對抗式審查(adversarial review),讓模型反復死磕自己的假設,評測準確率能再漲6%。代價是token多燒32%,延遲高72%。
95%不是搭出來的,是養出來的。一旦松手,幾周就可能塌回去。
參考資料:
https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude
編輯:元宇
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.