每隔幾周,社交媒體上就會有一波討論炸開:“Claude Code是不是變差了?”有人信誓旦旦說Opus更新后變得懶散,有人則說這是心理作用。爭論全憑感覺——沒人拿數據說話。
于是我搭了一個追蹤系統。過去大約95天里,這個系統每天記錄Claude Code和Codex在SWE-Bench-Pro上的任務通過率——也就是每個智能體在無人工輔助下完成真實編程任務的比例——并把數據畫成蠟燭圖。每根蠟燭的柱體代表當日通過率,開盤價是昨天的數據,收盤價是今天的數據,上下影線則反映當天樣本90%置信區間的波動范圍。思路跟股票K線一樣,只不過“股價”換成了智能體真正解決問題的頻率。
數據給出的結論,比“它變笨了”這種簡單說法有意思得多。
先看Claude Code這邊。按模型版本分別畫出基準線(取每個版本發布后前14天通過率的中位數),故事立刻清晰起來。Opus 4.6的時代,基準通過率在54%上下。到了Opus 4.7,基準線跳到了65%左右。從4.6到4.7這11個百分點的提升是實打實的臺階式變化,不是心理作用——模型完成任務的能力確實顯著增強,而且65%左右的水平穩穩維持了一個月。
但最近一周情況變了。今天的通過率落到了52%附近,遠低于65%的基準線,偏差已經越過統計顯著性門檻(p值小于0.05)。那些說“最近Claude Code手感變差”的人沒有憑空想象——相對于當前模型已經建立的基準,確實出現了一次向下漂移。觸發原因可能是量化策略調整、路由機制改動,或者負載變化,但不管怎樣,數字動了,而且超出了噪聲能解釋的范圍。
這里有個微妙之處,大多數討論帖都忽略了:Claude Code比半年前強很多這個事實,和本周確實在往下掉這個事實,兩者并不矛盾。感覺只能抓住一種印象,數據卻能同時容納兩個結論。
再看Codex,結果可能出乎很多人意料。三個版本迭代下來:gpt-5.3-codex時代通過率約58%,gpt-5.4-xhigh約54%,gpt-5.5-xhigh約56%。三次所謂的“大版本”升級,通過率始終在54%到58%這個窄區間內震蕩,沒有出現臺階式變化。這些版本更迭對基準測試的推動力,遠不及Opus 4.7那次帶來的躍升。如果你曾感覺“新版Codex好像沒變聰明”,數據站在你這邊:它確實一直是平的。
為什么用蠟燭圖并且把縱軸固定在0到100%?這兩個設計選擇很關鍵,如果你想誠實地解讀趨勢的話。縱軸固定,意味著時間窗口怎么切都不會出問題。如果讓刻度自動縮放,一個5個百分點的下滑就可能因為視圖拉近而顯得像場災難。5個點的跌幅就是5個點的跌幅,不管對比的是30天還是90天,Claude還是Codex。而分階段設基準線的好處更明顯——用一個橫跨多個版本的統一基準線去評價舊版模型,相當于在撒謊。每個版本有自己的虛線參照,你才能看到臺階,而不只是絕對水平。
如果你依賴這些智能體來發布產品,幾個發現值得記住。別被單日大跌嚇到,一根紅色蠟燭仍在噪聲區間內。但當數據連續一周低于基準線時,這就是信號了。盯緊那條虛線,別只盯著最后一個數據點。另外,“新版”不等于“更聰明”,Codex那根平躺的線就是證據。在遷移之前,先用基準測試跑一遍。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.