SWE-Bench Pro得分80.3%,比GPT-5.5整整高出11個百分點;在Cognition的FrontierCode Diamond基準上,它以13.4%對6.3%的絕對優勢碾壓所有已知模型——這就是Claude Fable 5交出的成績單。但這份成績單只在公開網絡上存活了幾天,隨后Anthropic就把它和Mythos 5一起對整個世界按下了停止開關。不是常規回滾,不是容量不足,也不是定價策略變了。美國政府的出口管制指令要求暫停向任何外國國民提供這兩個模型,連Anthropic的外國籍員工都被一并踢出,公司索性對所有人關閉了訪問。
我原本寫這篇文章時,心情矛盾但偏向推薦。當時Fable 5雖貴、限制多、爭議纏身,卻是我很長時間以來第一次真正感到“產出變了”的模型。我用它跑了真實代碼,它抓出了GPT-5.5和Claude Opus 4.8雙雙漏掉的錯誤。我把文章排好期,打算等輿論再飛一會兒就發出去,結果飛過來的是政府的一記重錘。故事的性質徹底翻篇:Fable 5不再只是一個強但觀感糟糕的模型,而是一個Anthropic自認為足夠安全可以釋放、美國政府卻在幾天后強行掐斷、且至今只給出含糊解釋的模型。
![]()
這背后的分級邏輯值得從頭說清楚。Anthropic的模型層級里,Haiku是快速干活的藍領,Sonnet是日常均衡選手,Opus負責啃硬骨頭。Opus之上,多了一個新東西:Mythos級。過去,Mythos模型被認為太危險,只通過“玻璃翼計劃”定向供給美國政府的網絡安全合作伙伴,從未對普通用戶開放。Fable 5就是第一個打破這道墻的Mythos級模型,它和Mythos 5共享同一底層,唯一的差別是一組安全分類器——它們在網絡安全、生物與化學、模型蒸餾等話題上直接阻斷或重定向查詢,算是一套安全“挽具”。
從紙面數據看,這套挽具并沒有蓋住模型的鋒芒。除了前面那兩個編程基準,Fable 5的視覺能力同樣是當時最先進的,直接干掉了Gemini 3.1 Pro,讓Anthropic在這條賽道上第一次站到了OpenAI前面。空間推理得分更是接近Opus 4.8的三倍。加入Anthropic才一個月的Andrej Karpathy,把這個成果稱作“一個大版本躍遷”。這話出自一位見慣大風大浪的研究者之口,分量不言而喻。
現在回頭看,所有驚艷數字都變成了背景板,真正的問題是:一個由企業評估后決定放出的模型,為什么會被政府以出口管制的名義緊急叫停?Anthropic對外給出的解釋非常有限,只確認了指令的存在和必須合規的事實,卻沒有公布觸發管制的具體風險點。外界只能從Mythos級的歷史定位去揣度——一個長期被鎖在國家安全圍欄里的模型,突然流向公開網絡,或許觸碰了某種尚未明說的紅線。但這一切仍停留在推測層面,官方沒有給出一份夠清晰的答案。
這次強制下線,不僅讓Fable 5的評測窗口縮成了幾天,更把一個問題直接甩到了臺面上:當AI安全治理的閥門同時握在企業與國家機器手里,公眾能看到的東西,可能比模型本身更短暫。而一個能夠捕捉到同行都漏掉的錯誤的工具,就這樣消失在了所有人的視野里,留下的只有那幾天的測試數據和一篇不得不把推薦改成見證的文章。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.