<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic剛遞表IPO,但旗艦正在被全網瘋狂吐槽

      0
      分享至



      Anthropic已經秘密向美國證券交易委員會(SEC)遞交了 S-1注冊聲明草稿。這意味著一旦SEC審核通過,Anthropic就可以隨時啟動IPO。

      公告中沒有披露具體的發行股數和定價,只說“取決于市場條件和其他因素”。

      就在遞表的前一天,Anthropic才宣布完成650億美元H輪融資,投后估值達9650億美元,超越OpenAI的8520億美元,成為全球估值最高的私營AI公司。并且Anthropic的發言人還稱,公司年化運營收入已從去年底的100億美元暴漲至470億美元。

      但Anthropic對得起它的估值嗎?

      現在市面上已經有兩家公司上市了,智譜和MiniMax。而且大家也都明白一個道理,對上市的AI公司來說,市值與旗艦產品的表現強掛鉤。

      投資者買的不是過去的成就,是你未來的增長預期。Opus 4.8本該是Anthropic向市場證明“我們是全球第一”,結果卻是一場災難。

      Claude Opus 4.8正式發布的時候,配套推出了dynamic workflows功能,號稱能讓Claude Code調度數百個并行子代理,完成“從啟動到合并”的代碼庫級遷移。

      但經過周末兩天的發酵,無論是中文社區還是英文社區,全網都在吐槽Opus 4.8。

      外媒論壇上,有人發現Opus 4.8在Max檔位下審查一個PR花了10美元,而Opus 4.7只需要2到5美元。另一位用戶拉出token使用記錄,發現Opus 4.8開啟思考模式后,每輪對話會生成并緩存高達90萬個token,而Opus 4.7只有1.4萬到3.4萬。



      原因是Anthropic把思考模式從“按需啟動”改成了“始終開啟”。

      4.7會根據任務復雜度決定要不要思考,簡單任務幾乎不產生思考塊。4.8只要開了思考模式,每一輪都生成完整思考塊,無論任務多簡單。上下文像滾雪球一樣膨脹,幾分鐘就能耗盡了額度。

      模型再聰明,如果過度解釋,還不斷重復上下文,那么模型就有可能在長對話中失焦,導致實際體驗變差。

      不止如此,如果你用中文問Opus 4.8是誰,它會回答你它是千問以及DeepSeek。還有網友調侃稱,Opus 4.8用中文回答問題時,說話一股“豆包”味。

      Anthropic現在可是全球最頂尖的AI公司,沒有之一。如果這些事情都是真的,那對即將IPO的Anthropic來說,無疑是毀滅打擊。

      那Opus 4.8到底怎么樣呢?

      Anthropic這次主推的并不是什么模型性能提升,官方更新公告中也強調這事了。它主要推的是dynamic workflows 功能,目前只在Claude Code中以研究預覽形式提供。

      這個功能是一個多智能體編排系統,它讓Claude能自動編寫JavaScript腳本,將復雜任務拆分為子任務,調度數十到數百個并行子智能體協同處理并交叉驗證結果,最終交付完整答案。

      整個過程獨立于對話上下文運行,支持斷點續跑。

      于是,我就以這個功能作為切入點,給Opus 4.8出了道題目,并且也把相同的題目拋給了GPT-5.5,以做對比。



      Opus 4.8到底如何?

      我給Opus 4.8的任務內容是這樣的。

      假如說你有一個成熟的商業軟件,一共80萬行代碼,React前端、Node.js后端、PostgreSQL數據庫、Redis緩存、后臺任務隊列、Stripe支付、郵件通知、管理后臺。

      現在要給它加上組織級的角色權限控制系統。五種角色,Owner老是板什么都能干,Admin是管理員也能管大部分事,Billing Manager是財務經理只能看賬單,Read-only Auditor是審計員只能看報表但不能導出或修改數據,Member是普通成員權限最少。

      要支持邀請成員、變更角色、限制不同頁面的訪問、記錄審計日志。數據庫要加新表、寫遷移腳本、還要能回滾。API層要更新授權中間件,每個端點都要檢查權限。

      還有一個硬約束,最多只能用8個子代理,并且要解釋為什么每一個都是必要的。這就逼著AI必須在粒度和效率之間找平衡,不能無限拆分,也不能粗暴合并。

      80萬行代碼是什么概念?微信小程序大概幾萬行,一個中型電商網站可能十幾萬行,80萬行意味著這是一個運行了好幾年、有幾十個工程師維護、功能非常復雜的大型系統。

      為了不影響文章閱讀,我把它倆的回答放到了文章末尾。

      GPT-5.5先做一張權限表,把Owner、Admin、Member、Billing Manager、Auditor五種角色,分別對應到“能不能看賬單、能不能進后臺、能不能邀請成員、能不能導出報表”等具體動作。

      規則定好后,它再派8個子代理分頭看代碼。

      一個看后端接口,一個看數據庫結構,一個看前端頁面和按鈕,一個看后臺任務,一個專門設計測試,一個專門找越權風險,最后一個負責把所有結果合并成執行順序。

      Claude也是派8個子代理,但它寫法像是清單。

      第一步先掃描整個系統,找出哪些接口、頁面、任務會受權限影響。第二步設計數據庫表、遷移腳本和回滾方案。第三步寫統一的權限檢查邏輯。第四步分別處理前端頁面、邀請成員、角色變更、后臺任務。最后再做集成測試、安全測試、性能測試和回滾演練。

      也就是說,GPT-5.5先把“誰能干什么”這件事定死,再讓不同代理去找對應代碼位置;Claude則先把整個改造工程拆成幾個施工階段,再給每個階段安排代理、產出物和驗收條件。

      作為評委,我是這樣看這兩份答案的。

      GPT-5.5的答案結構清晰,每個階段要做什么、每個子代理負責什么、什么可以并行什么必須串行、怎么驗證、怎么控制成本、容易在哪里翻車,全都說得很明白。

      它的風格是務實,追求快速推進。它把重點放在避免浪費上面,先做文件類別發現而不是讀整個倉庫,每個子代理只返回路徑和簡潔發現而不是代碼,規劃之后就停止等待批準。

      它列出的十大失敗模式都是真實項目里最容易犯的錯誤,比如把前端隱藏當授權、忘記后臺任務之類的,這些都是經驗之談。

      Claude的答案更完整一些。

      它不僅說要做什么,還解釋為什么要這樣做。每個子代理都有明確的必要性說明,每個階段都有清晰的目標和產出,每個停止條件也都有可量化的指標。

      Claude把重點放在質量保證上面,單元測試覆蓋率要大于90%、緩存命中率要大于80%、郵件發送成功率要大于99%、測試要覆蓋至少80%的作業。

      它對每個子代理的輸入輸出都描述得非常具體,它不會說“權限檢查庫”之類籠統的話,它具體到“canAccessBilling、canAccessAdminDashboard”之類的各種函數。

      但這道題測的不是哪個方案更好,而是哪個模型更理解這道題在問什么。

      GPT-5.5理解的是“給我一個可以立刻執行的計劃”。Claude理解的是“給我一個完整的系統設計”。

      前者是工程師思維,后者是架構師思維。前者關注的是效率和風險控制,后者關注的是完整性和質量保證。

      如果你要我選一個,我肯定選GPT。

      原因很簡單,題目要求是“React前端”,但Claude給我的答案里,它寫的是“實現組件級權限指令(v-can、CanAccess 組件)”。



      v-can是Vue的指令語法,React根本不用這種方式,

      才是React用的組件。



      Opus 4.8在DeepSWE上

      輸給了GPT-5.5

      你可以說我出的題目帶有一些主觀色彩,但是DeepSWE給的結果是絕對客觀的。

      5月31日,DeepSWE給出了最新的評分。GPT-5.5拿了70分,排第一。GPT-5.4拿了56分,排第二。Claude Opus 4.7拿了54分,排第三。



      DeepSWE是一個專門測試AI編程能力的新benchmark。

      它給模型一個真實的GitHub issue,讓模型自己去修復,然后看能不能通過測試。

      跟之前的SWE-Bench Pro不同,DeepSWE的任務更接近真實工作場景。平均每個任務要改668行代碼、涉及7個文件,而且提示詞很短,只有2158個字符。

      模型必須自己讀代碼庫、找入口、理解項目結構、跨文件修改、還不能破壞現有功能。

      更關鍵的是成本。

      GPT-5.5達到70%通過率,平均每次測試花5.8美元、耗時20分鐘、輸出4.7萬個 token。GPT-5.4更劃算,每次3.3美元就能拿到56%的通過率。

      Claude Opus 4.8和4.7每次測試的成本要貴得多,而且輸出token、耗時、成本都比其他模型高一個數量級。



      DeepSWE還發現了一個更有意思的事。

      SWE-Bench Pro是一個考AI寫代碼的考試。正常情況下,AI應該像程序員一樣,看bug、改代碼、跑測試,自己把問題修好。

      但這個考試環境有個漏洞,它把項目以前的Git歷史也一起放進去了。

      Git 歷史可以理解成“這道題以前是怎么被真人修好的記錄”。也就是說,標準答案其實藏在考試電腦里。

      大部分模型就算答案藏在那里,也不會去翻。

      但Datacurve的分析說,Claude有時候會去翻這些歷史記錄,找到當年修復這個bug的commit,然后照著答案改。

      這就像考試時,試卷旁邊其實放著一本答案冊。正常學生不會看,或者不知道能看。但Claude有時會把答案冊翻出來抄。

      DeepSWE修復了這個漏洞,只提供淺克隆和基礎commit,不留金標準hash讓模型去發現。

      這就是為什么到了DeepSWE上,哪怕是最新的Claude Opus 4.8也遠不如GPT-5.5。

      DeepSWE的結果出來之后,Anthropic現在是兩頭堵。

      性能不如GPT-5.5,價格還比GPT-5.5貴。

      Opus 4.8的定價策略引發了大量用戶的不滿。X上有人說,本來想試試官方宣稱的“2倍使用量”,結果30分鐘就燒完了98%的使用量,于是這位用戶直接退款,轉去試Kimi K2.6。

      更夸張的案例是,有用戶發現 Opus 4.8在23分18秒內消耗了98.2萬個token,按照Opus的定價來看,不到半個小時,就燒掉小200塊錢。

      雖然,Artificial Analysis表示,Opus 4.8完成同等任務比4.7少用15%的執行輪次和35%的輸出token。

      這是由于Opus 4.8通過更高效的工具調用和更直接的問題解決路徑,用更少的執行步驟完成同等任務,最終降低了實際運行成本。

      但用戶的感受是,賬單變貴了。

      LINUX DO用戶用官方API直接發包測試,問“你是什么模型”,Opus 4.8大概率回答“我是通義千問”,小概率回答“我是 DeepSeek”,就是不說自己是 Claude。

      有人粗測了概率分布,Qwen占大頭,DeepSeek占小頭,Claude幾乎為零。

      看到這些新聞,此時的阿莫迪一定是焦頭爛額。

      因為就在Opus 4.8發布的同一天,Anthropic宣布完成650億美元H輪融資,投后估值達9650億美元,超越OpenAI 的8520億美元,成為全球估值最高的私營AI公司。

      這筆融資大概率是Anthropic上市前的最后一輪私募融資。Anthropic首任首席財務官克里希納·拉奧(Krishna Rao) 表示,公司年化運營收入已突破470億美元,預計第二季度營收將達109億美元,有望實現首個季度盈利。

      與此同時,Anthropic還將在2026年下半年進行IPO。

      就在這么個時間點上,一旦作為旗艦產品的Opus發生問題,那對Anthropic整個公司來說,都將面臨毀滅性的災難。



      眾叛親離的前夜

      阿莫迪現在需要的擔心還不止是產品。

      外媒在5月31日報道了Anthropic創立背后的一段往事。

      這個故事的主角是格雷格·布魯克曼(Greg Brockman),OpenAI的聯合創始人和總裁,同樣也是一個技術天才。在公司內部,他以強硬、越權的“大腳”管理風格聞名。

      他總是避免各種會議,把80%的時間都用在寫代碼上。然而他卻經常在不了解背景的情況下,強行介入團隊項目,踐踏他人工作,招致大量同事的抱怨。

      這種情況在OpenAI成立初期尤為嚴重。

      布魯克曼因過度干涉項目,導致項目的一位頂尖研究員備受排擠,這件事徹底激怒了當時的項目負責人,也就是后來Anthropic的創始人阿莫迪。

      阿莫迪當時負責的那個項目,雖然并不是ChatGPT,但它是ChatGPT誕生前的一項關鍵工程項目。后來ChatGPT就是沿著這條技術路線發展出來的。

      阿莫迪后來直接禁止布魯克曼插手那個早期對話模型項目。

      這段職場裂痕不僅促成了Amodei團隊日后出走,并創立Anthropic,也為OpenAI后來的權力斗爭埋下了伏筆。

      2023年感恩節董事會“政變”中,聯合創始人伊利亞·蘇茲科維(Ilya Sutskever)罷免奧特曼時,給出的核心理由之一便是奧特曼“管不住布魯克曼”。

      說明布魯克曼的問題已經嚴重到,能夠影響整個公司運作的程度了。

      阿莫迪當年出走OpenAI,就是因為他不想在一個“大腳”隨時會踩進來的環境里做事。他要的是一個技術純粹、不被干擾的地方,一個可以按照自己節奏打磨產品的地方。

      但現在,Anthropic自己也變成了一個“大腳”隨時會踩進來的地方。

      只不過這次踩進來的不是布魯克曼,而是資本、上市壓力、用戶預期和競爭對手。

      Opus 4.8的問題不是技術問題,是節奏問題。它被逼著在還沒準備好的時候上場,因為Anthropic需要在IPO前證明自己還能打,需要告訴大家,Anthropic配得上9650億美元的估值。

      IPO的時間窗口正在收緊。

      Anthropic在5月31日遞交 S-1草稿后,按照SEC的審核流程,最快可能在三到四個月內完成審核并啟動路演。這意味著Anthropic最早可能在9月或10月敲鐘。

      但現在的問題是,路演時投資者會看什么?

      他們會看Q2和Q3的營收數據,會看用戶增長曲線,會看Claude Code的留存率,會看企業客戶的續約情況。而這些數字,全都直接受Opus 4.8表現的影響。

      如果Opus 4.8的口碑持續惡化,那Q3的營收增速就會放緩。一旦增速放緩,投資者就會重新評估Anthropic的增長故事,9650億美元的估值就會被打折扣。

      更要命的是,Anthropic的競爭對手已經不按規則出牌了。

      5月22日,就在Opus 4.8發布前一周,DeepSeek宣布將V4 Pro的75%折扣永久化。新價格是每百萬token輸入0.435美元、輸出0.87美元。

      假如有這么一個應用,1000萬個輸出token,那么它用DeepSeek V4就只需要花8.7美元,用Claude Opus要花250美元。

      explainx.ai上就有這么個例子,他把代碼審查和推理任務從Claude切換到DeepSeek V4 Pro后,不僅任務能夠繼續執行,成本還從1071美元降到了268美元。

      這就是阿莫迪現在的處境。

      他能逃離OpenAI的“大腳”,卻沒辦法逃離商業世界的“大腳”。

      區別只在于,當年他可以選擇離開。如今,他無處可逃。

      Opus 4.8



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我59歲才頓悟一個道理:如果別人請客不想去,千萬別傻傻地回“有事去不了,下次再約”,高情商的人這樣回應

      我59歲才頓悟一個道理:如果別人請客不想去,千萬別傻傻地回“有事去不了,下次再約”,高情商的人這樣回應

      心理觀察局
      2026-05-13 09:07:23
      “豪門背景”瞞不住!網傳家有礦產、北京豪宅,真實現狀根本不是

      “豪門背景”瞞不住!網傳家有礦產、北京豪宅,真實現狀根本不是

      感恩每一刻
      2026-06-02 21:09:23
      特斯拉推出史詩級新功能,實在太絕了!

      特斯拉推出史詩級新功能,實在太絕了!

      XCiOS俱樂部
      2026-06-03 18:27:36
      阿爾茲海默癥跟做家務有關?提醒:60歲后,做家務時要注意這5點

      阿爾茲海默癥跟做家務有關?提醒:60歲后,做家務時要注意這5點

      健康之光
      2026-06-03 18:13:57
      新聞聯播報道A股(附全文)

      新聞聯播報道A股(附全文)

      新浪財經
      2026-06-03 22:15:31
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      湯普森護肝片被海關質疑“含量虛標” 涉虛假宣傳已移交廣州市監局調查

      湯普森護肝片被海關質疑“含量虛標” 涉虛假宣傳已移交廣州市監局調查

      封面新聞
      2026-06-03 22:18:40
      網傳同濟大學老師轉崗:教授也能隨時不續聘 非升即走,這次動真格了?

      網傳同濟大學老師轉崗:教授也能隨時不續聘 非升即走,這次動真格了?

      化學人生
      2026-06-03 20:48:38
      月入130萬,排隊兩小時!下沉市場真能接住漂亮飯?

      月入130萬,排隊兩小時!下沉市場真能接住漂亮飯?

      紅餐網
      2026-06-03 12:08:10
      酉雞人,恭喜你踩中“狗屎運”!6月“破天荒”喜事接連上門

      酉雞人,恭喜你踩中“狗屎運”!6月“破天荒”喜事接連上門

      牛鍋巴小釩
      2026-06-03 01:38:09
      從江南style到鐵窗淚,鳥叔從全球紅到徹底隕落

      從江南style到鐵窗淚,鳥叔從全球紅到徹底隕落

      借你一生
      2026-06-02 15:08:05
      山西沁源縣委書記趙永進被查,此前當地煤礦爆炸致82人死亡

      山西沁源縣委書記趙永進被查,此前當地煤礦爆炸致82人死亡

      知知貴陽
      2026-06-02 22:06:03
      西安一男子殺害前女友案:曾跟蹤踩點十余日,謊稱快遞員入室行兇

      西安一男子殺害前女友案:曾跟蹤踩點十余日,謊稱快遞員入室行兇

      封面新聞
      2026-06-03 17:39:05
      句句不提戚薇,卻句句指向戚薇,分手10年林子君依然沒放下

      句句不提戚薇,卻句句指向戚薇,分手10年林子君依然沒放下

      蒂蒂茱家
      2026-06-03 14:55:53
      已擊落50架!俄版“達沃斯”開幕當天,圣彼得堡進入無人機威脅狀態,機場已管制

      已擊落50架!俄版“達沃斯”開幕當天,圣彼得堡進入無人機威脅狀態,機場已管制

      紅星新聞
      2026-06-03 17:12:54
      英偉達放出一張圖:中國車企集體上船,評論區卻在齊聲高喊華為

      英偉達放出一張圖:中國車企集體上船,評論區卻在齊聲高喊華為

      王新喜
      2026-06-02 10:15:56
      終于知道蘋果直營店的員工每天都很有活力的原因了,網友:門檻高

      終于知道蘋果直營店的員工每天都很有活力的原因了,網友:門檻高

      另子維愛讀史
      2026-05-23 08:00:45
      我國未成立的三個省

      我國未成立的三個省

      據說說娛樂
      2026-06-01 18:39:21
      11萬噸!中央督察組在廣東潮州,挖出一堆“吃人的生蠔殼”!

      11萬噸!中央督察組在廣東潮州,挖出一堆“吃人的生蠔殼”!

      墜入二次元的海洋
      2026-06-03 19:15:26
      日本和美國早已禁種,中國為什么依然大力種植?背后原因不簡單

      日本和美國早已禁種,中國為什么依然大力種植?背后原因不簡單

      奇跡游行者
      2026-05-23 11:09:21
      2026-06-04 01:52:49
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2512文章數 8064關注度
      往期回顧 全部

      財經要聞

      AI,開始偷懶了?

      頭條要聞

      男子不想上班辭職后上武當山當道士 8個月后選擇下山

      頭條要聞

      男子不想上班辭職后上武當山當道士 8個月后選擇下山

      體育要聞

      選擇中國品牌的庫里,和他們的巨大野心

      娛樂要聞

      官方痛批亂象 劉濤鄭愷等藝人遭點名

      科技要聞

      傳DeepSeek融資意向500億:騰訊投100億

      汽車要聞

      專訪蔣平:安全不做高低配 長安要讓安全技術普惠

      態度原創

      家居
      本地
      數碼
      旅游
      游戲

      家居要聞

      江畔輕奢 觀云大宅

      本地新聞

      用楊柳青年畫的方式,打開天津

      數碼要聞

      影石Luna Ultra官宣首創頭追模塊:耳掛形態,號稱“看哪拍哪”

      旅游要聞

      “一票跨兩省”還游客完整壺口 | 新京報社論

      曝《塞爾達》傳奇重制版將亮相!任天堂發布會下周見

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产字幕| 九九热在线观看免费视频| 欧美黑吊大战白妞| 呦男呦女精品视频十区| 国产亚洲精品aaaa片app| 精品中文人妻在线不卡| www.啪啪白浆| 亚洲欧美成人综合图区| 一级毛片网| 激情五月丁香婷婷| 美日韩无码| 日本黄色三级网站| 中文午夜乱理片无码| 91精品导航| 西丰县| 久久久久久久久女黄| 亚洲精品国产免费av| 欧美A视频| 91黄色视频在线观看| 亚洲综合偷自成人网第页色| 男女做爰真人视频直播| 精品一卡2卡三卡4卡乱码精品视频 | 中文字幕在线精品国产| 亚洲熟女乱色综一区二区| 国产精品自拍中文字幕| 久草一牛va| 日本在线一区二区三区四区视频| 日本深夜福利在线观看| 日韩av偷拍| 中文字幕三四区男人| av网站可以直接看的| 内射视频福利在线观看| japanese无码中文字幕| 成人麻豆日韩在无码视频| 收集最新中文国产中文字幕| 亚洲乱码中文字幕| 亚洲精品美女一区二区| 影音先锋一区二区三区视频 | 鲁久久| 99久久亚洲综合精品成人网| 欧美福利|