剛剛！Claude Opus 4.8 炸場，一夜升級成工作流AI

2026-05-29 08:14:28　來源: 雷科技

廣東舉報(bào)

分享至

千呼萬喚，Claude Opus 4.8 正式發(fā)布了。

北京時(shí)間 5 月 29 日凌晨，Anthropic 正式發(fā)布 Claude Opus 4.8，如果只看名字，Opus 4.8 很容易被理解成 Opus 4.7 后面的一次小版本更新，其實(shí)從官方釋出的性能表來說，也確實(shí)如此。比如 Terminal-Bench 2.1 上，GPT-5.5 的 78.2% 仍然高于 Opus 4.8 的 74.6%。

（圖源：Anthropic）

不過，Anthropic 的真正殺招不只是 Claude Opus 4.8，而是隨這個(gè)新旗艦?zāi)Ｐ鸵煌尦觯?strong>包括 Claude.ai 的 effort control、Claude Code 的 dynamic workflows 的全新Agent能力。

事實(shí)上，Anthropic 已經(jīng)不再執(zhí)著于讓 Claude 變得更聰明了，而是選擇讓 Claude 變得更能干活了。

判斷力是Opus 4.8 的最大突破

我們先來看看 Anthropic 這款最新旗艦?zāi)Ｐ?Claude Opus 4.8 的具體性能。

官方性能表里，Opus 4.8 在 Agentic Coding、Agentic Computer Use、Knowledge Work、Finance Agent 等多個(gè)項(xiàng)目上超過 Opus 4.7、GPT-5.5 和 Gemini 3.1 Pro。在 SWE-Bench Pro 上，Opus 4.8 是 69.2%，高于 Opus 4.7 的 64.3%；OSWorld-Verified 上，Opus 4.8 是 83.4%；GDPval-AA 上，Opus 4.8 得到 1890；Finance Agent v2 上，Opus 4.8 是 53.9%。

（圖源：Anthropic）

簡單來說，Opus 4.8 的核心升級是寫代碼、用終端、操作電腦、處理知識工作、做金融分析。更直白一點(diǎn)說，Opus 4.8 不是為“問答”而升級，而是為“代理執(zhí)行”而升級。

過去一年，大家對 coding agent 最大的不滿，并不是它完全不會寫代碼，而是它太自信了，比如你讓它跑一個(gè)任務(wù)，它會說任務(wù)完成了，但測試沒有真正跑通，還有它會把自己生成的代碼缺陷放過去，甚至用很篤定的語氣告訴你“一切正常”。換到問答里，那就是 AI 又一次“穩(wěn)穩(wěn)地接住了你”。

這類問題對聊天產(chǎn)品來說只是體驗(yàn)不太行，但對 agent 來說就是生產(chǎn)事故。

因?yàn)?agent 的本質(zhì)不是回答，而是行動。一個(gè)會行動的模型，最可怕的不是能力不足，而是能力不足卻不知道自己不足，所以 Opus 4.8 的提升點(diǎn)很重要，它更愿意指出不確定性，愿意在證據(jù)不足時(shí)停下來，等待你補(bǔ)充完整信息再去行動。官方甚至提到，Opus 4.8 讓代碼缺陷未經(jīng)提醒通過的概率，比前代低了很多。

從官方早測反饋看，Cursor、Devin、Databricks、法律 AI、金融分析、瀏覽器 agent 等合作方也提到：

工具調(diào)用更干凈，任務(wù)推進(jìn)更穩(wěn)，長程上下文保持更好，更適合無人值守或半無人值守的復(fù)雜工作。

另外，ClaudeDevs 官方賬號對 dynamic workflows 做了連續(xù)解釋：Claude Code 現(xiàn)在可以臨時(shí)寫 orchestration script，然后并行啟動大量 coordinated subagents 來處理復(fù)雜任務(wù)。官方還明確說，這類 workflow 適合 service-wide bug hunt、大型遷移、設(shè)計(jì)壓力測試這類單 agent loop 很難完成的任務(wù)。

（圖源：Anthropic）

Bun 作者 Jarred Sumner 表示， dynamic workflows 是目前可靠使用 agents 完成中大型項(xiàng)目的前沿方式之一，并提到 Bun 重寫為 Rust 的過程中，dynamic workflows 和 adversarial code review 起到了重要作用。

不難看出，Opus 4.8 就不是一個(gè)單獨(dú)拎出來很強(qiáng)的模型，它更重要的是在 Claude Code 這套 agent 系統(tǒng)里的核心執(zhí)行模型。

與此同時(shí)，Anthropic 一同發(fā)布的幾個(gè)新能力也很有意思，比如Claude.ai 新增的 effort control ，用戶現(xiàn)在可以控制 Claude 在任務(wù)上“花多少力氣”，有幾個(gè)選項(xiàng)，低 effort 更快、更省；高 effort 更深、更適合復(fù)雜任務(wù)，Opus 4.8 默認(rèn)的是 high effort，假如想要省一些 token，那最好手動切換回低 effort。

5 月模型大混戰(zhàn)：全員加速 Agent

整個(gè) 5 月，AI 圈幾乎是各家廠商各顯神通。

OpenAI 繼續(xù)強(qiáng)化 Codex，展示用 Codex 構(gòu)建自改進(jìn)稅務(wù)智能體；Google 在 I/O 上發(fā)布一整套 AI agent 開發(fā)工具鏈；GitHub、Cursor、OpenAI 都在爭奪企業(yè)級 AI 編程代理的位置；Replit Agent 開始和自動化 QA 結(jié)合；Luma Agents 用于規(guī)模化生成真實(shí) UGC 廣告；阿里云也在推 DataWorks AI 數(shù)據(jù)智能體和“全天候 AI 勞動力”。

國內(nèi)模型側(cè)也在繼續(xù)高頻迭代，比如Qwen3.7-Max 強(qiáng)調(diào)編程能力，智譜 GLM-5.1 高速版主打 API 速度，MiniCPM5-1B、BitCPM-CANN 繼續(xù)往端側(cè)、低比特、低成本方向推進(jìn)，商湯和騰訊混元等也在快速更新迭代。

與此同時(shí)，價(jià)格戰(zhàn)也在悄悄打響。

DeepSeek 再次降價(jià)，小米 MiMo 大模型也以極低價(jià)格入場，表面上看，這是 API 報(bào)價(jià)競爭，但實(shí)際上還是為了 Agent，因?yàn)?Agent 實(shí)在是太吃 tokens 了。

如果只是聊天，一次可能只消耗幾百到幾千 tokens，但 Agent 不一樣，它要讀上下文、拆任務(wù)、寫計(jì)劃、調(diào)用工具、執(zhí)行代碼、檢查結(jié)果、修復(fù)錯(cuò)誤，有時(shí)還要拉起多個(gè) subagents 并行工作。Claude Code 的 dynamic workflows 就是典型例子，官方自己也提醒它 powerful but expensive，會快速消耗大量 tokens。

所以，token 價(jià)格戰(zhàn)不只是為了讓聊天更便宜，而是為了讓 Agent 這種高消耗形態(tài)跑得起來。所以，就連 Anthropic 也不得不把 fast mode 的價(jià)格打到了前代的三分之一，來應(yīng)對這樣的高消耗。

（圖源：Anthropic）

看起來，大家只是在按部就班更新模型，但似乎都遺漏了一點(diǎn)，那就是這些模型的核心已經(jīng)不再是聊天，而是比誰更能進(jìn)入真實(shí)工作流。

過去的大模型競爭，主戰(zhàn)場是對話，誰回答得更自然，誰推理更強(qiáng)，誰上下文更長，誰模態(tài)更好，現(xiàn)在主戰(zhàn)場正在變成 agent。

Agent 競爭的核心不是單次回答，而是連續(xù)執(zhí)行，它要求模型會拆任務(wù)、會調(diào)用工具、會管理上下文、會處理權(quán)限、會控制成本、會復(fù)核輸出，還要能在復(fù)雜環(huán)境中長時(shí)間不跑偏。

這也是為什么 Opus 4.8 的官方?jīng)]有強(qiáng)調(diào)對話能力，而是把重點(diǎn)放在 agentic coding、computer use、knowledge work、financial analysis。因?yàn)?Anthropic 很清楚，未來最值錢的模型調(diào)用，不一定發(fā)生在聊天窗口里，而是發(fā)生在 IDE、終端、瀏覽器、數(shù)據(jù)平臺、企業(yè)后臺和各種自動化流程里。

（圖源：Anthropic）

從這個(gè)角度看，dynamic workflows 可能比 Opus 4.8 本身更重要。因?yàn)樗?Claude Code 從“一個(gè) AI 程序員”推向“一支 AI 工程隊(duì)”。過去你讓模型做任務(wù)，本質(zhì)上是一個(gè)模型在一個(gè)上下文里循環(huán)。現(xiàn)在它開始能拆分任務(wù)、并行分配子代理、讓不同 agent 互相驗(yàn)證，最后再匯總結(jié)果。

綜合來看，5 月這場模型大混戰(zhàn)，不只是“模型更強(qiáng)了”，而是“模型正在被允許做更多事”。

Claude 一夜蛻變成工作流系統(tǒng)

Opus 4.8 雖然在定位上是 Cludue 的旗艦?zāi)Ｐ停粫且淮巍罢鸷橙珗觥钡哪Ｐ桶l(fā)布。

它更像 Anthropic 給市場遞出的一張路線圖，這張路線圖里，模型不能只追求更聰明，還要更穩(wěn)；任務(wù)不能只完成一輪對話，還要能持續(xù)推進(jìn)；AI 不能只給出答案，還要能解釋過程、復(fù)核結(jié)果、控制成本，并且把工作流沉淀下來。這些都是未來所有大模型都要關(guān)注的點(diǎn)。

于是我們可以看到，Opus 4.8 負(fù)責(zé)把 Claude 的判斷力和長程執(zhí)行能力往前推一步，effort control 讓用戶可以在質(zhì)量、速度和成本之間主動調(diào)節(jié)，dynamic workflows 則把 Claude Code 從單個(gè) coding agent，推向一個(gè)可以拆任務(wù)、調(diào)度 subagents、并行執(zhí)行和復(fù)核結(jié)果的工程協(xié)作系統(tǒng)。

Claude 正在變成什么呢？答案已經(jīng)很明顯了，Claude 正在從一個(gè)聊天模型，變成一個(gè)工程協(xié)作系統(tǒng)。

接下來，大模型公司的競爭也會越來越少停留在“誰更會說”，而是把目標(biāo)放在更可靠地完成復(fù)雜任務(wù)、更便宜地支撐高頻調(diào)用，把模型、工具、工作流、安全和成本控制，真正打包成生產(chǎn)力系統(tǒng)。

在這一方向上， Anthropic 已經(jīng)交出了第一份答卷。

Opus名字來自拉丁語中的“作品”，常用來形容一位作曲家的傳世之作（magnum opus，即“最偉大的作品”）。在古典音樂里，Opus 后面跟著編號，代表作曲家最重要的創(chuàng)作。貝多芬的《月光奏鳴曲》是 Op. 27，《命運(yùn)交響曲》是 Op. 67。這不是隨便寫的東西，這是嘔心瀝血的集大成之作。

從引領(lǐng)加速AI產(chǎn)業(yè)進(jìn)入工作流時(shí)代的意義來看，Claude Opus 4.8確實(shí)堪稱一個(gè)傳世之作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.