網易首頁 > 網易號 > 正文申請入駐

95天數據追蹤：Claude Code變笨的真相，藏在K線圖里

2026-06-01 00:07:30　來源: 薛定諤的BUG

北京舉報

分享至

每隔幾周，社交媒體上就會有一波討論炸開：“Claude Code是不是變差了？”有人信誓旦旦說Opus更新后變得懶散，有人則說這是心理作用。爭論全憑感覺——沒人拿數據說話。

于是我搭了一個追蹤系統。過去大約95天里，這個系統每天記錄Claude Code和Codex在SWE-Bench-Pro上的任務通過率——也就是每個智能體在無人工輔助下完成真實編程任務的比例——并把數據畫成蠟燭圖。每根蠟燭的柱體代表當日通過率，開盤價是昨天的數據，收盤價是今天的數據，上下影線則反映當天樣本90%置信區間的波動范圍。思路跟股票K線一樣，只不過“股價”換成了智能體真正解決問題的頻率。

數據給出的結論，比“它變笨了”這種簡單說法有意思得多。

先看Claude Code這邊。按模型版本分別畫出基準線（取每個版本發布后前14天通過率的中位數），故事立刻清晰起來。Opus 4.6的時代，基準通過率在54%上下。到了Opus 4.7，基準線跳到了65%左右。從4.6到4.7這11個百分點的提升是實打實的臺階式變化，不是心理作用——模型完成任務的能力確實顯著增強，而且65%左右的水平穩穩維持了一個月。

但最近一周情況變了。今天的通過率落到了52%附近，遠低于65%的基準線，偏差已經越過統計顯著性門檻（p值小于0.05）。那些說“最近Claude Code手感變差”的人沒有憑空想象——相對于當前模型已經建立的基準，確實出現了一次向下漂移。觸發原因可能是量化策略調整、路由機制改動，或者負載變化，但不管怎樣，數字動了，而且超出了噪聲能解釋的范圍。

這里有個微妙之處，大多數討論帖都忽略了：Claude Code比半年前強很多這個事實，和本周確實在往下掉這個事實，兩者并不矛盾。感覺只能抓住一種印象，數據卻能同時容納兩個結論。

再看Codex，結果可能出乎很多人意料。三個版本迭代下來：gpt-5.3-codex時代通過率約58%，gpt-5.4-xhigh約54%，gpt-5.5-xhigh約56%。三次所謂的“大版本”升級，通過率始終在54%到58%這個窄區間內震蕩，沒有出現臺階式變化。這些版本更迭對基準測試的推動力，遠不及Opus 4.7那次帶來的躍升。如果你曾感覺“新版Codex好像沒變聰明”，數據站在你這邊：它確實一直是平的。

為什么用蠟燭圖并且把縱軸固定在0到100%？這兩個設計選擇很關鍵，如果你想誠實地解讀趨勢的話。縱軸固定，意味著時間窗口怎么切都不會出問題。如果讓刻度自動縮放，一個5個百分點的下滑就可能因為視圖拉近而顯得像場災難。5個點的跌幅就是5個點的跌幅，不管對比的是30天還是90天，Claude還是Codex。而分階段設基準線的好處更明顯——用一個橫跨多個版本的統一基準線去評價舊版模型，相當于在撒謊。每個版本有自己的虛線參照，你才能看到臺階，而不只是絕對水平。

如果你依賴這些智能體來發布產品，幾個發現值得記住。別被單日大跌嚇到，一根紅色蠟燭仍在噪聲區間內。但當數據連續一周低于基準線時，這就是信號了。盯緊那條虛線，別只盯著最后一個數據點。另外，“新版”不等于“更聰明”，Codex那根平躺的線就是證據。在遷移之前，先用基準測試跑一遍。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.