![]()
Anthropic已經秘密向美國證券交易委員會(SEC)遞交了 S-1注冊聲明草稿。這意味著一旦SEC審核通過,Anthropic就可以隨時啟動IPO。
公告中沒有披露具體的發行股數和定價,只說“取決于市場條件和其他因素”。
就在遞表的前一天,Anthropic才宣布完成650億美元H輪融資,投后估值達9650億美元,超越OpenAI的8520億美元,成為全球估值最高的私營AI公司。并且Anthropic的發言人還稱,公司年化運營收入已從去年底的100億美元暴漲至470億美元。
但Anthropic對得起它的估值嗎?
現在市面上已經有兩家公司上市了,智譜和MiniMax。而且大家也都明白一個道理,對上市的AI公司來說,市值與旗艦產品的表現強掛鉤。
投資者買的不是過去的成就,是你未來的增長預期。Opus 4.8本該是Anthropic向市場證明“我們是全球第一”,結果卻是一場災難。
Claude Opus 4.8正式發布的時候,配套推出了dynamic workflows功能,號稱能讓Claude Code調度數百個并行子代理,完成“從啟動到合并”的代碼庫級遷移。
但經過周末兩天的發酵,無論是中文社區還是英文社區,全網都在吐槽Opus 4.8。
外媒論壇上,有人發現Opus 4.8在Max檔位下審查一個PR花了10美元,而Opus 4.7只需要2到5美元。另一位用戶拉出token使用記錄,發現Opus 4.8開啟思考模式后,每輪對話會生成并緩存高達90萬個token,而Opus 4.7只有1.4萬到3.4萬。
![]()
原因是Anthropic把思考模式從“按需啟動”改成了“始終開啟”。
4.7會根據任務復雜度決定要不要思考,簡單任務幾乎不產生思考塊。4.8只要開了思考模式,每一輪都生成完整思考塊,無論任務多簡單。上下文像滾雪球一樣膨脹,幾分鐘就能耗盡了額度。
模型再聰明,如果過度解釋,還不斷重復上下文,那么模型就有可能在長對話中失焦,導致實際體驗變差。
不止如此,如果你用中文問Opus 4.8是誰,它會回答你它是千問以及DeepSeek。還有網友調侃稱,Opus 4.8用中文回答問題時,說話一股“豆包”味。
Anthropic現在可是全球最頂尖的AI公司,沒有之一。如果這些事情都是真的,那對即將IPO的Anthropic來說,無疑是毀滅打擊。
那Opus 4.8到底怎么樣呢?
Anthropic這次主推的并不是什么模型性能提升,官方更新公告中也強調這事了。它主要推的是dynamic workflows 功能,目前只在Claude Code中以研究預覽形式提供。
這個功能是一個多智能體編排系統,它讓Claude能自動編寫JavaScript腳本,將復雜任務拆分為子任務,調度數十到數百個并行子智能體協同處理并交叉驗證結果,最終交付完整答案。
整個過程獨立于對話上下文運行,支持斷點續跑。
于是,我就以這個功能作為切入點,給Opus 4.8出了道題目,并且也把相同的題目拋給了GPT-5.5,以做對比。
![]()
Opus 4.8到底如何?
我給Opus 4.8的任務內容是這樣的。
假如說你有一個成熟的商業軟件,一共80萬行代碼,React前端、Node.js后端、PostgreSQL數據庫、Redis緩存、后臺任務隊列、Stripe支付、郵件通知、管理后臺。
現在要給它加上組織級的角色權限控制系統。五種角色,Owner老是板什么都能干,Admin是管理員也能管大部分事,Billing Manager是財務經理只能看賬單,Read-only Auditor是審計員只能看報表但不能導出或修改數據,Member是普通成員權限最少。
要支持邀請成員、變更角色、限制不同頁面的訪問、記錄審計日志。數據庫要加新表、寫遷移腳本、還要能回滾。API層要更新授權中間件,每個端點都要檢查權限。
還有一個硬約束,最多只能用8個子代理,并且要解釋為什么每一個都是必要的。這就逼著AI必須在粒度和效率之間找平衡,不能無限拆分,也不能粗暴合并。
80萬行代碼是什么概念?微信小程序大概幾萬行,一個中型電商網站可能十幾萬行,80萬行意味著這是一個運行了好幾年、有幾十個工程師維護、功能非常復雜的大型系統。
為了不影響文章閱讀,我把它倆的回答放到了文章末尾。
GPT-5.5先做一張權限表,把Owner、Admin、Member、Billing Manager、Auditor五種角色,分別對應到“能不能看賬單、能不能進后臺、能不能邀請成員、能不能導出報表”等具體動作。
規則定好后,它再派8個子代理分頭看代碼。
一個看后端接口,一個看數據庫結構,一個看前端頁面和按鈕,一個看后臺任務,一個專門設計測試,一個專門找越權風險,最后一個負責把所有結果合并成執行順序。
Claude也是派8個子代理,但它寫法像是清單。
第一步先掃描整個系統,找出哪些接口、頁面、任務會受權限影響。第二步設計數據庫表、遷移腳本和回滾方案。第三步寫統一的權限檢查邏輯。第四步分別處理前端頁面、邀請成員、角色變更、后臺任務。最后再做集成測試、安全測試、性能測試和回滾演練。
也就是說,GPT-5.5先把“誰能干什么”這件事定死,再讓不同代理去找對應代碼位置;Claude則先把整個改造工程拆成幾個施工階段,再給每個階段安排代理、產出物和驗收條件。
作為評委,我是這樣看這兩份答案的。
GPT-5.5的答案結構清晰,每個階段要做什么、每個子代理負責什么、什么可以并行什么必須串行、怎么驗證、怎么控制成本、容易在哪里翻車,全都說得很明白。
它的風格是務實,追求快速推進。它把重點放在避免浪費上面,先做文件類別發現而不是讀整個倉庫,每個子代理只返回路徑和簡潔發現而不是代碼,規劃之后就停止等待批準。
它列出的十大失敗模式都是真實項目里最容易犯的錯誤,比如把前端隱藏當授權、忘記后臺任務之類的,這些都是經驗之談。
Claude的答案更完整一些。
它不僅說要做什么,還解釋為什么要這樣做。每個子代理都有明確的必要性說明,每個階段都有清晰的目標和產出,每個停止條件也都有可量化的指標。
Claude把重點放在質量保證上面,單元測試覆蓋率要大于90%、緩存命中率要大于80%、郵件發送成功率要大于99%、測試要覆蓋至少80%的作業。
它對每個子代理的輸入輸出都描述得非常具體,它不會說“權限檢查庫”之類籠統的話,它具體到“canAccessBilling、canAccessAdminDashboard”之類的各種函數。
但這道題測的不是哪個方案更好,而是哪個模型更理解這道題在問什么。
GPT-5.5理解的是“給我一個可以立刻執行的計劃”。Claude理解的是“給我一個完整的系統設計”。
前者是工程師思維,后者是架構師思維。前者關注的是效率和風險控制,后者關注的是完整性和質量保證。
如果你要我選一個,我肯定選GPT。
原因很簡單,題目要求是“React前端”,但Claude給我的答案里,它寫的是“實現組件級權限指令(v-can、CanAccess 組件)”。
![]()
v-can是Vue的指令語法,React根本不用這種方式,
才是React用的組件。
![]()
Opus 4.8在DeepSWE上
輸給了GPT-5.5
你可以說我出的題目帶有一些主觀色彩,但是DeepSWE給的結果是絕對客觀的。
5月31日,DeepSWE給出了最新的評分。GPT-5.5拿了70分,排第一。GPT-5.4拿了56分,排第二。Claude Opus 4.7拿了54分,排第三。
![]()
DeepSWE是一個專門測試AI編程能力的新benchmark。
它給模型一個真實的GitHub issue,讓模型自己去修復,然后看能不能通過測試。
跟之前的SWE-Bench Pro不同,DeepSWE的任務更接近真實工作場景。平均每個任務要改668行代碼、涉及7個文件,而且提示詞很短,只有2158個字符。
模型必須自己讀代碼庫、找入口、理解項目結構、跨文件修改、還不能破壞現有功能。
更關鍵的是成本。
GPT-5.5達到70%通過率,平均每次測試花5.8美元、耗時20分鐘、輸出4.7萬個 token。GPT-5.4更劃算,每次3.3美元就能拿到56%的通過率。
Claude Opus 4.8和4.7每次測試的成本要貴得多,而且輸出token、耗時、成本都比其他模型高一個數量級。
![]()
DeepSWE還發現了一個更有意思的事。
SWE-Bench Pro是一個考AI寫代碼的考試。正常情況下,AI應該像程序員一樣,看bug、改代碼、跑測試,自己把問題修好。
但這個考試環境有個漏洞,它把項目以前的Git歷史也一起放進去了。
Git 歷史可以理解成“這道題以前是怎么被真人修好的記錄”。也就是說,標準答案其實藏在考試電腦里。
大部分模型就算答案藏在那里,也不會去翻。
但Datacurve的分析說,Claude有時候會去翻這些歷史記錄,找到當年修復這個bug的commit,然后照著答案改。
這就像考試時,試卷旁邊其實放著一本答案冊。正常學生不會看,或者不知道能看。但Claude有時會把答案冊翻出來抄。
DeepSWE修復了這個漏洞,只提供淺克隆和基礎commit,不留金標準hash讓模型去發現。
這就是為什么到了DeepSWE上,哪怕是最新的Claude Opus 4.8也遠不如GPT-5.5。
DeepSWE的結果出來之后,Anthropic現在是兩頭堵。
性能不如GPT-5.5,價格還比GPT-5.5貴。
Opus 4.8的定價策略引發了大量用戶的不滿。X上有人說,本來想試試官方宣稱的“2倍使用量”,結果30分鐘就燒完了98%的使用量,于是這位用戶直接退款,轉去試Kimi K2.6。
更夸張的案例是,有用戶發現 Opus 4.8在23分18秒內消耗了98.2萬個token,按照Opus的定價來看,不到半個小時,就燒掉小200塊錢。
雖然,Artificial Analysis表示,Opus 4.8完成同等任務比4.7少用15%的執行輪次和35%的輸出token。
這是由于Opus 4.8通過更高效的工具調用和更直接的問題解決路徑,用更少的執行步驟完成同等任務,最終降低了實際運行成本。
但用戶的感受是,賬單變貴了。
LINUX DO用戶用官方API直接發包測試,問“你是什么模型”,Opus 4.8大概率回答“我是通義千問”,小概率回答“我是 DeepSeek”,就是不說自己是 Claude。
有人粗測了概率分布,Qwen占大頭,DeepSeek占小頭,Claude幾乎為零。
看到這些新聞,此時的阿莫迪一定是焦頭爛額。
因為就在Opus 4.8發布的同一天,Anthropic宣布完成650億美元H輪融資,投后估值達9650億美元,超越OpenAI 的8520億美元,成為全球估值最高的私營AI公司。
這筆融資大概率是Anthropic上市前的最后一輪私募融資。Anthropic首任首席財務官克里希納·拉奧(Krishna Rao) 表示,公司年化運營收入已突破470億美元,預計第二季度營收將達109億美元,有望實現首個季度盈利。
與此同時,Anthropic還將在2026年下半年進行IPO。
就在這么個時間點上,一旦作為旗艦產品的Opus發生問題,那對Anthropic整個公司來說,都將面臨毀滅性的災難。
![]()
眾叛親離的前夜
阿莫迪現在需要的擔心還不止是產品。
外媒在5月31日報道了Anthropic創立背后的一段往事。
這個故事的主角是格雷格·布魯克曼(Greg Brockman),OpenAI的聯合創始人和總裁,同樣也是一個技術天才。在公司內部,他以強硬、越權的“大腳”管理風格聞名。
他總是避免各種會議,把80%的時間都用在寫代碼上。然而他卻經常在不了解背景的情況下,強行介入團隊項目,踐踏他人工作,招致大量同事的抱怨。
這種情況在OpenAI成立初期尤為嚴重。
布魯克曼因過度干涉項目,導致項目的一位頂尖研究員備受排擠,這件事徹底激怒了當時的項目負責人,也就是后來Anthropic的創始人阿莫迪。
阿莫迪當時負責的那個項目,雖然并不是ChatGPT,但它是ChatGPT誕生前的一項關鍵工程項目。后來ChatGPT就是沿著這條技術路線發展出來的。
阿莫迪后來直接禁止布魯克曼插手那個早期對話模型項目。
這段職場裂痕不僅促成了Amodei團隊日后出走,并創立Anthropic,也為OpenAI后來的權力斗爭埋下了伏筆。
2023年感恩節董事會“政變”中,聯合創始人伊利亞·蘇茲科維(Ilya Sutskever)罷免奧特曼時,給出的核心理由之一便是奧特曼“管不住布魯克曼”。
說明布魯克曼的問題已經嚴重到,能夠影響整個公司運作的程度了。
阿莫迪當年出走OpenAI,就是因為他不想在一個“大腳”隨時會踩進來的環境里做事。他要的是一個技術純粹、不被干擾的地方,一個可以按照自己節奏打磨產品的地方。
但現在,Anthropic自己也變成了一個“大腳”隨時會踩進來的地方。
只不過這次踩進來的不是布魯克曼,而是資本、上市壓力、用戶預期和競爭對手。
Opus 4.8的問題不是技術問題,是節奏問題。它被逼著在還沒準備好的時候上場,因為Anthropic需要在IPO前證明自己還能打,需要告訴大家,Anthropic配得上9650億美元的估值。
IPO的時間窗口正在收緊。
Anthropic在5月31日遞交 S-1草稿后,按照SEC的審核流程,最快可能在三到四個月內完成審核并啟動路演。這意味著Anthropic最早可能在9月或10月敲鐘。
但現在的問題是,路演時投資者會看什么?
他們會看Q2和Q3的營收數據,會看用戶增長曲線,會看Claude Code的留存率,會看企業客戶的續約情況。而這些數字,全都直接受Opus 4.8表現的影響。
如果Opus 4.8的口碑持續惡化,那Q3的營收增速就會放緩。一旦增速放緩,投資者就會重新評估Anthropic的增長故事,9650億美元的估值就會被打折扣。
更要命的是,Anthropic的競爭對手已經不按規則出牌了。
5月22日,就在Opus 4.8發布前一周,DeepSeek宣布將V4 Pro的75%折扣永久化。新價格是每百萬token輸入0.435美元、輸出0.87美元。
假如有這么一個應用,1000萬個輸出token,那么它用DeepSeek V4就只需要花8.7美元,用Claude Opus要花250美元。
explainx.ai上就有這么個例子,他把代碼審查和推理任務從Claude切換到DeepSeek V4 Pro后,不僅任務能夠繼續執行,成本還從1071美元降到了268美元。
這就是阿莫迪現在的處境。
他能逃離OpenAI的“大腳”,卻沒辦法逃離商業世界的“大腳”。
區別只在于,當年他可以選擇離開。如今,他無處可逃。
Opus 4.8
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.