<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic內部95%業務分析交給Claude,秘訣竟然不在更強模型

      0
      分享至


      新智元報道


      【新智元導讀】都以為讓AI查數據省事,結果它答得漂亮你卻不敢信。Anthropic最近說這事有解了,靠的是一套和代碼無關的「笨功夫」。

      讓AI查數據,它答得頭頭是道,你卻不敢信。

      剛剛,這個讓無數搞AI數據分析的人最頭疼的事,Anthropic給出了自己的解法,還在官方博客甩出兩個95%的數字:

      公司內部95%的業務分析查詢,已由Claude自動完成;

      整體準確率約95%。


      https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude?utm_source=chatgpt.com

      這篇博客直指AI數據查詢的核心痛點:答案看著對,卻不敢輕易相信,不知哪里可能埋了雷。

      Anthropic官方還為這種情況起了個名,叫「虛假的精確感」(false sense of precision):

      把Claude直接接上數據倉庫放手讓它跑,它可能會回復你一個格式漂亮、語氣篤定,卻悄悄用錯了表的答案。

      這篇博客的作者來自Anthropic數據科學與數據工程團隊,把重復機械的取數活交給Claude后,他們騰出手,去做因果建模、預測、機器學習等事情。

      他們在博客中提到的最反常識的一個觀點就是:讓模型準確查數,最難的根本不在寫SQL。

      結構化查詢語言(SQL)就是跟數據庫要數據用的語言,過去會寫它,是數據分析的一道門檻。

      可對今天的大模型來說,把人話翻成SQL早已不是主要瓶頸,真正難的是在寫SQL之前那一步。

      三類常見錯誤

      數據本身是一筆「糊涂賬」

      Anthropic認為數據分析,難就難在:數據本身是一筆「糊涂賬」。

      同一個問題,常常能對上好幾份長得差不多的數據,到底該用哪一份,說不清。

      AI真正要做對的,是從這一堆數據中挑出你要找的那份。這一步搞對了,后面寫SQL把數取出來,幾乎是順理成章的事。

      Anthropic將模型分析數據出錯的主要原因,歸為如下三類。


      分析類AI的真正難點,是把用戶問題映射到正確且最新的數據實體。

      第一類,概念和實體對不上。

      一個數據模型里有幾百個看著都能用的字段,背后可能藏著上百萬個。你問「有多少活躍用戶」,什么動作算活躍?算不算欺詐賬號?回溯窗口取7天還是30天?模型在這堆近義選項里,挑不出對的那個。

      第二類,數據過時。

      數據源、業務定義、表結構天天在變。模型腦子里的知識慢慢「生銹」,開始返回「細微處出錯」的答案。這種錯最難發現,看著全對,其實早就不對了。

      第三類,檢索失敗。

      信息其實就躺在模型里,標注也完整。可搜索空間太大,它壓根沒翻到。

      把它和寫代碼對比,差別一下就清楚了。寫代碼是開放題,文檔和單元測試天然擋著幻覺。數據分析往往只有一個正確答案、一個正確來源,而且沒有任何確定性的辦法證明它對。

      所以Anthropic的結論是:分析的準確率,是上下文和驗證的問題,并非模型會不會寫代碼的問題。

      從21%到95%

      Anthropic在中間做了什么

      為了解決這三類錯誤,Anthropic搭了一套東西,起名叫智能體分析棧(agentic analytics stack),一共四層,每層專治一類問題。


      Anthropic智能體分析棧結構圖:數據基礎層、事實來源、技能、驗證四層各司其職。

      第一層,數據基礎層(data foundations):數據倉庫本身,包括數據模型、轉換、測試、表,以及描述它們的元數據。核心動作是把同一個概念收斂到唯一一張權威表,專治「概念-實體歧義」,同時也構建了預防數據口徑過時的第一道工程防線。


      Anthropic強調,維度建模等傳統數據工程手藝,在AI時代同樣關鍵。

      第二層,事實來源(sources of truth):模型查數時參照的幾個權威來源,按可信度從高到低是:語義層>血緣與轉換圖>查詢語料>業務上下文。它的作用就是把用戶嘴里模糊的問法,翻譯成系統里唯一正確、有人維護的數據口徑。

      前兩層合起來,專門解決「概念對不上」的痛點。

      第三層,技能(Skills):把資深分析師的查詢流程固化成可復用的模塊,主治「檢索失敗」,保證模型可靠地找到、并用對那個答案。

      第四層,驗證(validation):離線評測、消融實驗、在線驗證,再加上維護流程,查出三類錯里還有哪一類在漏,也是對抗「數據過時」的主要方式。

      在搭這幾層的過程里,Anthropic還撞見了兩個反直覺的結果。

      一個是偷懶的代價。

      他們試過讓大模型自動從原始表生成指標定義,結果生成的定義把想消除的歧義又原樣編碼了回去,在評測里直接成了負分。最后只能改回老辦法:Claude起草文檔,定義由人來拍板。

      另一個更出乎意料。把幾千條歷史SQL直接喂給模型檢索,準確率只提升了不到1個百分點。

      這四層里,Anthropic披露的最大準確率躍遷來自Skills。

      事實來源是聲明式知識,告訴模型每個指標是什么意思;Skills是程序性知識,告訴它先查哪、按什么順序查、一份合格分析長什么樣。

      形態上,Skills就是一個裝著SKILL.md和說明、腳本、資源的文件夾,Claude按需讀取。這個機制在Anthropic官方文檔和GitHub倉庫中都能交叉印證。

      效果有多驚人?


      根據Anthropic內部披露數字,沒有Skills,Claude在內部評測里的準確率不超過21%;加上Skills之后,穩定沖到95%以上,部分領域接近99%。

      從21%到95%,差的不是更強的模型,是這套結構。

      95%的數字背后

      這套東西「會腐爛」

      但95%的準確率,并沒有保持太久。

      Anthropic發現,這套系統會過期:他們眼睜睜看著離線準確率,一個月內從約95%掉到約65%。

      背后原因是,數據模型每天都在變,描述它的Skill文檔沒人管,因此幾周后它就開始說錯話。

      于是Anthropic團隊就把維護當成正經工程來做:Skill文檔和數據模型塞進同一個代碼倉庫,改模型的那個代碼合并請求(PR),順手把對應文檔也改了。現在約90%的數據模型改動,都帶著一處Skill更新一起提交。

      他們還做過一個負面實驗。

      給智能體開了全文檢索(grep)權限,讓它去翻歷史SQL文件,還在運行記錄里確認它確實一條條讀了。結果準確率上下波動不到1個點。更要命的是,答錯的那些題里,約80%的正確答案,其實就躺在它剛讀過的語料里。它看見了,還是沒用上。

      那一刻Anthropic想明白了:真正的瓶頸是結構,不是拿不拿得到資料。這個判斷,直接改寫了他們之后幾個月的路線圖。

      找對結構,能把準確率頂到一個高度。可最后那幾個百分點,得拿真金白銀去換。

      比如,加一道對抗式審查(adversarial review),讓模型反復死磕自己的假設,評測準確率能再漲6%。代價是token多燒32%,延遲高72%。

      95%不是搭出來的,是養出來的。一旦松手,幾周就可能塌回去。

      參考資料:

      https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

      編輯:元宇

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      今日早報每日熱點15條新聞簡報每天一分鐘知曉天下事 6月9日

      今日早報每日熱點15條新聞簡報每天一分鐘知曉天下事 6月9日

      每天一分鐘知曉天下事
      2026-06-09 06:32:07
      董潔曬北京大平層,深夜一個人煮夜宵吃,陪17歲兒子在北京讀高二

      董潔曬北京大平層,深夜一個人煮夜宵吃,陪17歲兒子在北京讀高二

      墜入二次元的海洋
      2026-06-08 15:31:07
      我們可能有了自己的“魚鷹”,中國首架傾轉旋翼機出現在畫面中

      我們可能有了自己的“魚鷹”,中國首架傾轉旋翼機出現在畫面中

      止戈軍是我
      2026-06-09 08:10:09
      世界級后衛聯手,范戴克賽后將球衣送給烏茲主帥卡納瓦羅

      世界級后衛聯手,范戴克賽后將球衣送給烏茲主帥卡納瓦羅

      懂球帝
      2026-06-09 08:53:24
      科比or哈登?霍華德:合作過最好的后衛是詹姆斯,我們奪冠了

      科比or哈登?霍華德:合作過最好的后衛是詹姆斯,我們奪冠了

      懂球帝
      2026-06-08 16:28:10
      漢獻帝真是被曹操挾持的嗎?別被小說騙了,看看正史是怎么說的

      漢獻帝真是被曹操挾持的嗎?別被小說騙了,看看正史是怎么說的

      芳芳歷史燴
      2026-06-08 11:25:08
      利物浦傻眼!一年前被掃地出門的 8500 萬水貨,現在成了救命稻草

      利物浦傻眼!一年前被掃地出門的 8500 萬水貨,現在成了救命稻草

      奶蓋熊本熊
      2026-06-09 04:54:59
      娃哈哈換“姓”了!宗馥莉另立門戶,為讓三個私生子徹底翻不了身

      娃哈哈換“姓”了!宗馥莉另立門戶,為讓三個私生子徹底翻不了身

      天天熱點見聞
      2026-06-08 03:19:57
      原子彈轟炸日本始末:扔第一顆日本并未屈服,曾與美國進行了對賭

      原子彈轟炸日本始末:扔第一顆日本并未屈服,曾與美國進行了對賭

      文史達觀
      2026-06-03 17:04:23
      總決賽G3馬刺尼克斯不變陣!特朗普觀戰,安保升級

      總決賽G3馬刺尼克斯不變陣!特朗普觀戰,安保升級

      體壇周報
      2026-06-09 08:26:12
      爆大冷!隨著中國3-1逆轉,巴西3-2意大利,世聯賽最新排名誕生

      爆大冷!隨著中國3-1逆轉,巴西3-2意大利,世聯賽最新排名誕生

      寒士之言本尊
      2026-06-08 20:31:37
      被執行1.8萬!江蘇一光伏企業被申請破產!

      被執行1.8萬!江蘇一光伏企業被申請破產!

      新浪財經
      2026-06-08 19:12:45
      18.99 萬起!特斯拉廉價 Model Y 上海實錘投產,寧德時代電芯加持

      18.99 萬起!特斯拉廉價 Model Y 上海實錘投產,寧德時代電芯加持

      小怪吃美食
      2026-06-08 00:26:58
      貴州神泉谷景區被暴雨淹沒,多名游客被困,景區:已全部安全撤離,損失達兩三千萬元

      貴州神泉谷景區被暴雨淹沒,多名游客被困,景區:已全部安全撤離,損失達兩三千萬元

      瀟湘晨報
      2026-06-08 14:52:43
      “高考時令尊落馬了?”男生曬“上學路”,貴門出寒子具象化了!

      “高考時令尊落馬了?”男生曬“上學路”,貴門出寒子具象化了!

      世界圈
      2026-06-09 08:36:36
      CBA下賽季分組出爐!廣東上海獲上上簽:遼籃卻陷入死亡之組?

      CBA下賽季分組出爐!廣東上海獲上上簽:遼籃卻陷入死亡之組?

      籃球快餐車
      2026-06-09 01:54:53
      為何不待見林葳?郭士強專赴現場考察 葳少竟禮貌性握手直接走人

      為何不待見林葳?郭士強專赴現場考察 葳少竟禮貌性握手直接走人

      大嘴爵爺侃球
      2026-06-08 12:59:57
      央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠征又說對了

      央視怒批,目不識丁,洋相百出,絕望文盲再翻車,馮遠征又說對了

      墨印齋
      2026-05-29 13:20:21
      WTA最新排名公布:法網黑馬飆升逼近前20,鄭欽文暴跌66位

      WTA最新排名公布:法網黑馬飆升逼近前20,鄭欽文暴跌66位

      全景體育V
      2026-06-08 07:30:47
      光環碎落,鄭麗文的舔美與民心失散

      光環碎落,鄭麗文的舔美與民心失散

      點燃好奇心
      2026-05-26 19:12:08
      2026-06-09 09:15:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15424文章數 66920關注度
      往期回顧 全部

      科技要聞

      一文看懂蘋果WWDC26:庫克告別,Siri重生

      頭條要聞

      《奔跑吧》被指向江山文旅收850萬錄制費用 多方回應

      頭條要聞

      《奔跑吧》被指向江山文旅收850萬錄制費用 多方回應

      體育要聞

      2026年世界杯?到底會是什么樣?

      娛樂要聞

      越扒越有!奔跑吧文旅合作費近兩千萬

      財經要聞

      俞浩深陷爭議 百億追覓誰來托底?

      汽車要聞

      從真實事故場景出發 吉利銀河星艦7 EV硬核安全“超綱”了

      態度原創

      房產
      藝術
      本地
      健康
      公開課

      房產要聞

      10,000元大獎等你拿!廣州城投地產IP形象設計大賽火熱開啟!以創意贏未來!

      藝術要聞

      定了!深圳最大高鐵站,超130億元!

      本地新聞

      用楊柳青年畫的方式,打開天津

      干細胞新規落地,打干細胞更容易還是更難了?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 苍井空无码丰满尖叫高潮| 人妻日韩人妻中文字幕| 亚洲精品a级九色| 国产亚洲精久久久久久无码77777| 国产精品国产三级国产专i| 亚洲国产性夜夜综合| 91亚洲人成手机在线观看| jizz日本版| 国产精品国产高清国产一区| 日本亚洲一区二区精品| 一区二区三区国产亚洲自拍| 色九九视频| 国产精品国三级国产av| 中国6一12呦女精品| 97免费在线观看视频| 99精品国产综合久久久久五月天 | 尤物最新网址| 99热精品国产三级在线| 污在线看| 亚洲第一国产综合| 欧美寡妇xxxx黑人猛交| 国产精品集合| 亚洲va在线∨a天堂va欧美va| 91成人精品| 亚洲综合无码明星蕉在线视频| 99成人无码精品视频| 浮妇高潮喷白浆视频| 国产精品爱久久久久久久电影| AV色导航| 伊人亚洲综合影院首页| 日本一道本高清一区二区| 亚洲色偷偷色噜噜狠狠99| 成人精品自拍视频免费看| 综合色导航| 国内熟妇人妻色在线视频| 久久精品亚洲作者| 精品欧美成人高清在线观看| 国产美女网站| 熟女一区| 亚洲 成人 无码 在线观看| 99re国产高清|