<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      剛剛!Claude Opus 4.8 炸場,一夜升級成工作流AI

      0
      分享至

      千呼萬喚,Claude Opus 4.8 正式發(fā)布了。

      北京時(shí)間 5 月 29 日凌晨,Anthropic 正式發(fā)布 Claude Opus 4.8,如果只看名字,Opus 4.8 很容易被理解成 Opus 4.7 后面的一次小版本更新,其實(shí)從官方釋出的性能表來說,也確實(shí)如此。比如 Terminal-Bench 2.1 上,GPT-5.5 的 78.2% 仍然高于 Opus 4.8 的 74.6%。



      (圖源:Anthropic)

      不過,Anthropic 的真正殺招不只是 Claude Opus 4.8,而是隨這個(gè)新旗艦?zāi)P鸵煌尦觯?strong>包括 Claude.ai 的 effort control、Claude Code 的 dynamic workflows 的全新Agent能力。

      事實(shí)上,Anthropic 已經(jīng)不再執(zhí)著于讓 Claude 變得更聰明了,而是選擇讓 Claude 變得更能干活了。

      判斷力是Opus 4.8 的最大突破

      我們先來看看 Anthropic 這款最新旗艦?zāi)P?Claude Opus 4.8 的具體性能。

      官方性能表里,Opus 4.8 在 Agentic Coding、Agentic Computer Use、Knowledge Work、Finance Agent 等多個(gè)項(xiàng)目上超過 Opus 4.7、GPT-5.5 和 Gemini 3.1 Pro。在 SWE-Bench Pro 上,Opus 4.8 是 69.2%,高于 Opus 4.7 的 64.3%;OSWorld-Verified 上,Opus 4.8 是 83.4%;GDPval-AA 上,Opus 4.8 得到 1890;Finance Agent v2 上,Opus 4.8 是 53.9%。



      (圖源:Anthropic)

      簡單來說,Opus 4.8 的核心升級是寫代碼、用終端、操作電腦、處理知識工作、做金融分析。更直白一點(diǎn)說,Opus 4.8 不是為“問答”而升級,而是為“代理執(zhí)行”而升級。

      過去一年,大家對 coding agent 最大的不滿,并不是它完全不會寫代碼,而是它太自信了,比如你讓它跑一個(gè)任務(wù),它會說任務(wù)完成了,但測試沒有真正跑通,還有它會把自己生成的代碼缺陷放過去,甚至用很篤定的語氣告訴你“一切正常”。換到問答里,那就是 AI 又一次“穩(wěn)穩(wěn)地接住了你”。

      這類問題對聊天產(chǎn)品來說只是體驗(yàn)不太行,但對 agent 來說就是生產(chǎn)事故。

      因?yàn)?agent 的本質(zhì)不是回答,而是行動。一個(gè)會行動的模型,最可怕的不是能力不足,而是能力不足卻不知道自己不足,所以 Opus 4.8 的提升點(diǎn)很重要,它更愿意指出不確定性,愿意在證據(jù)不足時(shí)停下來,等待你補(bǔ)充完整信息再去行動。官方甚至提到,Opus 4.8 讓代碼缺陷未經(jīng)提醒通過的概率,比前代低了很多。

      從官方早測反饋看,Cursor、Devin、Databricks、法律 AI、金融分析、瀏覽器 agent 等合作方也提到:

      工具調(diào)用更干凈,任務(wù)推進(jìn)更穩(wěn),長程上下文保持更好,更適合無人值守或半無人值守的復(fù)雜工作。

      另外,ClaudeDevs 官方賬號對 dynamic workflows 做了連續(xù)解釋:Claude Code 現(xiàn)在可以臨時(shí)寫 orchestration script,然后并行啟動大量 coordinated subagents 來處理復(fù)雜任務(wù)。官方還明確說,這類 workflow 適合 service-wide bug hunt、大型遷移、設(shè)計(jì)壓力測試這類單 agent loop 很難完成的任務(wù)。



      (圖源:Anthropic)

      Bun 作者 Jarred Sumner 表示, dynamic workflows 是目前可靠使用 agents 完成中大型項(xiàng)目的前沿方式之一,并提到 Bun 重寫為 Rust 的過程中,dynamic workflows 和 adversarial code review 起到了重要作用。

      不難看出,Opus 4.8 就不是一個(gè)單獨(dú)拎出來很強(qiáng)的模型,它更重要的是在 Claude Code 這套 agent 系統(tǒng)里的核心執(zhí)行模型。

      與此同時(shí),Anthropic 一同發(fā)布的幾個(gè)新能力也很有意思,比如Claude.ai 新增的 effort control ,用戶現(xiàn)在可以控制 Claude 在任務(wù)上“花多少力氣”,有幾個(gè)選項(xiàng),低 effort 更快、更省;高 effort 更深、更適合復(fù)雜任務(wù),Opus 4.8 默認(rèn)的是 high effort,假如想要省一些 token,那最好手動切換回低 effort。

      5 月模型大混戰(zhàn):全員加速 Agent

      整個(gè) 5 月,AI 圈幾乎是各家廠商各顯神通。

      OpenAI 繼續(xù)強(qiáng)化 Codex,展示用 Codex 構(gòu)建自改進(jìn)稅務(wù)智能體;Google 在 I/O 上發(fā)布一整套 AI agent 開發(fā)工具鏈;GitHub、Cursor、OpenAI 都在爭奪企業(yè)級 AI 編程代理的位置;Replit Agent 開始和自動化 QA 結(jié)合;Luma Agents 用于規(guī)模化生成真實(shí) UGC 廣告;阿里云也在推 DataWorks AI 數(shù)據(jù)智能體和“全天候 AI 勞動力”。

      國內(nèi)模型側(cè)也在繼續(xù)高頻迭代,比如Qwen3.7-Max 強(qiáng)調(diào)編程能力,智譜 GLM-5.1 高速版主打 API 速度,MiniCPM5-1B、BitCPM-CANN 繼續(xù)往端側(cè)、低比特、低成本方向推進(jìn),商湯和騰訊混元等也在快速更新迭代。

      與此同時(shí),價(jià)格戰(zhàn)也在悄悄打響。

      DeepSeek 再次降價(jià),小米 MiMo 大模型也以極低價(jià)格入場,表面上看,這是 API 報(bào)價(jià)競爭,但實(shí)際上還是為了 Agent,因?yàn)?Agent 實(shí)在是太吃 tokens 了。

      如果只是聊天,一次可能只消耗幾百到幾千 tokens,但 Agent 不一樣,它要讀上下文、拆任務(wù)、寫計(jì)劃、調(diào)用工具、執(zhí)行代碼、檢查結(jié)果、修復(fù)錯(cuò)誤,有時(shí)還要拉起多個(gè) subagents 并行工作。Claude Code 的 dynamic workflows 就是典型例子,官方自己也提醒它 powerful but expensive,會快速消耗大量 tokens。

      所以,token 價(jià)格戰(zhàn)不只是為了讓聊天更便宜,而是為了讓 Agent 這種高消耗形態(tài)跑得起來。所以,就連 Anthropic 也不得不把 fast mode 的價(jià)格打到了前代的三分之一,來應(yīng)對這樣的高消耗。



      (圖源:Anthropic)

      看起來,大家只是在按部就班更新模型,但似乎都遺漏了一點(diǎn),那就是這些模型的核心已經(jīng)不再是聊天,而是比誰更能進(jìn)入真實(shí)工作流。

      過去的大模型競爭,主戰(zhàn)場是對話,誰回答得更自然,誰推理更強(qiáng),誰上下文更長,誰模態(tài)更好,現(xiàn)在主戰(zhàn)場正在變成 agent。

      Agent 競爭的核心不是單次回答,而是連續(xù)執(zhí)行,它要求模型會拆任務(wù)、會調(diào)用工具、會管理上下文、會處理權(quán)限、會控制成本、會復(fù)核輸出,還要能在復(fù)雜環(huán)境中長時(shí)間不跑偏。

      這也是為什么 Opus 4.8 的官方?jīng)]有強(qiáng)調(diào)對話能力,而是把重點(diǎn)放在 agentic coding、computer use、knowledge work、financial analysis。因?yàn)?Anthropic 很清楚,未來最值錢的模型調(diào)用,不一定發(fā)生在聊天窗口里,而是發(fā)生在 IDE、終端、瀏覽器、數(shù)據(jù)平臺、企業(yè)后臺和各種自動化流程里。



      (圖源:Anthropic)

      從這個(gè)角度看,dynamic workflows 可能比 Opus 4.8 本身更重要。因?yàn)樗?Claude Code 從“一個(gè) AI 程序員”推向“一支 AI 工程隊(duì)”。過去你讓模型做任務(wù),本質(zhì)上是一個(gè)模型在一個(gè)上下文里循環(huán)。現(xiàn)在它開始能拆分任務(wù)、并行分配子代理、讓不同 agent 互相驗(yàn)證,最后再匯總結(jié)果。

      綜合來看,5 月這場模型大混戰(zhàn),不只是“模型更強(qiáng)了”,而是“模型正在被允許做更多事”。

      Claude 一夜蛻變成工作流系統(tǒng)

      Opus 4.8 雖然在定位上是 Cludue 的旗艦?zāi)P停粫且淮巍罢鸷橙珗觥钡哪P桶l(fā)布。

      它更像 Anthropic 給市場遞出的一張路線圖,這張路線圖里,模型不能只追求更聰明,還要更穩(wěn);任務(wù)不能只完成一輪對話,還要能持續(xù)推進(jìn);AI 不能只給出答案,還要能解釋過程、復(fù)核結(jié)果、控制成本,并且把工作流沉淀下來。這些都是未來所有大模型都要關(guān)注的點(diǎn)。

      于是我們可以看到,Opus 4.8 負(fù)責(zé)把 Claude 的判斷力和長程執(zhí)行能力往前推一步,effort control 讓用戶可以在質(zhì)量、速度和成本之間主動調(diào)節(jié),dynamic workflows 則把 Claude Code 從單個(gè) coding agent,推向一個(gè)可以拆任務(wù)、調(diào)度 subagents、并行執(zhí)行和復(fù)核結(jié)果的工程協(xié)作系統(tǒng)。

      Claude 正在變成什么呢?答案已經(jīng)很明顯了,Claude 正在從一個(gè)聊天模型,變成一個(gè)工程協(xié)作系統(tǒng)。

      接下來,大模型公司的競爭也會越來越少停留在“誰更會說”,而是把目標(biāo)放在更可靠地完成復(fù)雜任務(wù)、更便宜地支撐高頻調(diào)用,把模型、工具、工作流、安全和成本控制,真正打包成生產(chǎn)力系統(tǒng)。

      在這一方向上, Anthropic 已經(jīng)交出了第一份答卷。

      Opus名字來自拉丁語中的“作品”,常用來形容一位作曲家的傳世之作(magnum opus,即“最偉大的作品”)。在古典音樂里,Opus 后面跟著編號,代表作曲家最重要的創(chuàng)作。貝多芬的《月光奏鳴曲》是 Op. 27,《命運(yùn)交響曲》是 Op. 67。這不是隨便寫的東西,這是嘔心瀝血的集大成之作。

      從引領(lǐng)加速AI產(chǎn)業(yè)進(jìn)入工作流時(shí)代的意義來看,Claude Opus 4.8確實(shí)堪稱一個(gè)傳世之作。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      難以置信!長沙一銷售哭訴月薪9760元太低了,網(wǎng)友:已超98%的人

      難以置信!長沙一銷售哭訴月薪9760元太低了,網(wǎng)友:已超98%的人

      火山詩話
      2026-05-30 08:05:24
      基輔將被毀滅?全城劇烈爆炸,澤連斯基:“他們正試圖摧毀我們”

      基輔將被毀滅?全城劇烈爆炸,澤連斯基:“他們正試圖摧毀我們”

      安珈使者啊
      2026-05-31 11:44:03
      《關(guān)于進(jìn)一步深化國資國企改革的方案(2026—2029年)》已經(jīng)下發(fā)

      《關(guān)于進(jìn)一步深化國資國企改革的方案(2026—2029年)》已經(jīng)下發(fā)

      澎湃新聞
      2026-05-31 18:44:26
      世界杯奪冠熱門:西班牙領(lǐng)跑,衛(wèi)冕冠軍僅第4,日本問鼎概率1.38%

      世界杯奪冠熱門:西班牙領(lǐng)跑,衛(wèi)冕冠軍僅第4,日本問鼎概率1.38%

      綠茵舞著
      2026-05-31 22:23:56
      徐江:胡荷韜落選國足,是因?yàn)樗慕?jīng)紀(jì)人在第三批禁足名單

      徐江:胡荷韜落選國足,是因?yàn)樗慕?jīng)紀(jì)人在第三批禁足名單

      懂球帝
      2026-05-31 11:33:18
      李弘權(quán):今天主要贏在了籃板球上,打到現(xiàn)在再累也要咬牙堅(jiān)持

      李弘權(quán):今天主要贏在了籃板球上,打到現(xiàn)在再累也要咬牙堅(jiān)持

      懂球帝
      2026-05-31 22:24:05
      郝軍輝任中央組織部副部長

      郝軍輝任中央組織部副部長

      中國經(jīng)濟(jì)網(wǎng)
      2026-05-30 14:23:25
      禽獸都不會這么干!巴西亞馬遜雨林發(fā)生嚴(yán)重挑戰(zhàn)人類倫理的事情

      禽獸都不會這么干!巴西亞馬遜雨林發(fā)生嚴(yán)重挑戰(zhàn)人類倫理的事情

      科普大世界
      2026-05-30 21:04:03
      孔蒂開價(jià)1500萬年薪+奪冠獎500萬,費(fèi)內(nèi)巴切兩派候選人都想要他

      孔蒂開價(jià)1500萬年薪+奪冠獎500萬,費(fèi)內(nèi)巴切兩派候選人都想要他

      慢享生活集
      2026-05-31 00:06:08
      衛(wèi)冕失敗!亞歷山大空砍35+9功虧一簣 兩連莊MVP卻無緣兩連冠

      衛(wèi)冕失敗!亞歷山大空砍35+9功虧一簣 兩連莊MVP卻無緣兩連冠

      醉臥浮生
      2026-05-31 10:49:15
      給近期“熱播劇”排個(gè)名:主角第5,家業(yè)第9,第一殺瘋了!

      給近期“熱播劇”排個(gè)名:主角第5,家業(yè)第9,第一殺瘋了!

      阿廢冷眼觀察所
      2026-05-31 17:02:05
      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      隨著雷霆3-4出局,NBA總決賽確定:馬刺vs尼克斯!總冠軍預(yù)測如下

      隨著雷霆3-4出局,NBA總決賽確定:馬刺vs尼克斯!總冠軍預(yù)測如下

      小火箭愛體育
      2026-05-31 11:29:29
      切特在搶7的表現(xiàn),甚至比本·西蒙斯“關(guān)鍵時(shí)刻掉鏈子”還要糟糕

      切特在搶7的表現(xiàn),甚至比本·西蒙斯“關(guān)鍵時(shí)刻掉鏈子”還要糟糕

      好火子
      2026-05-31 23:50:40
      因?yàn)楣べY太低而被歧視了?事實(shí)上馬刺全隊(duì)最靠譜的還是他?

      因?yàn)楣べY太低而被歧視了?事實(shí)上馬刺全隊(duì)最靠譜的還是他?

      稻谷與小麥
      2026-05-31 23:58:41
      俄軍開始從兩個(gè)戰(zhàn)場撤退,瑞典36架鷹獅助力烏克蘭空軍

      俄軍開始從兩個(gè)戰(zhàn)場撤退,瑞典36架鷹獅助力烏克蘭空軍

      史政先鋒
      2026-05-29 15:58:46
      FSD 涉嫌欺詐!特斯拉這次的瓜,真的有點(diǎn)大

      FSD 涉嫌欺詐!特斯拉這次的瓜,真的有點(diǎn)大

      芝麻科技訊官方號
      2026-05-30 21:39:58
      耿同學(xué)的北航博導(dǎo)楊昀:論文不讓國內(nèi)看,跟肖飛合作,清華本碩沒有一作

      耿同學(xué)的北航博導(dǎo)楊昀:論文不讓國內(nèi)看,跟肖飛合作,清華本碩沒有一作

      小小河
      2026-05-29 22:41:27
      楊鳴真敢說!直指上海“四外援形同虛設(shè)”:這是兩個(gè)定時(shí)炸彈

      楊鳴真敢說!直指上海“四外援形同虛設(shè)”:這是兩個(gè)定時(shí)炸彈

      體壇狗哥
      2026-05-31 21:43:36
      是不是太過了?神舟飛船落地,地面上居然安排有專門的開艙手崗位

      是不是太過了?神舟飛船落地,地面上居然安排有專門的開艙手崗位

      阿龍聊軍事
      2026-05-30 07:47:52
      2026-06-01 00:20:49
      雷科技 incentive-icons
      雷科技
      專注AI硬科技
      36999文章數(shù) 812145關(guān)注度
      往期回顧 全部

      科技要聞

      戴爾諾基亞又回來了!AI重估老牌科技公司

      頭條要聞

      媒體:印度多個(gè)領(lǐng)域面臨嚴(yán)重問題 莫迪發(fā)出罕見的號召

      頭條要聞

      媒體:印度多個(gè)領(lǐng)域面臨嚴(yán)重問題 莫迪發(fā)出罕見的號召

      體育要聞

      阿森納用最悲壯的方式,成就了巴黎王朝

      娛樂要聞

      朱軍退休,正義雖遲但到,女方受懲

      財(cái)經(jīng)要聞

      醫(yī)學(xué)首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

      汽車要聞

      900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      旅游
      手機(jī)
      公開課

      房產(chǎn)要聞

      紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

      教育要聞

      定了!最新奧賽國家集訓(xùn)隊(duì)名單出爐,北京共4人入圍,來自這些中學(xué)

      旅游要聞

      “春雨”潤邊疆 齊魯情意長——山東“文化潤疆”主題旅游列車集中展演推廣活動在烏魯木齊火熱舉行

      手機(jī)要聞

      曝三星研發(fā)手機(jī)液冷散熱系統(tǒng),助力手機(jī)性能升級

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美人伦禁忌dvd放荡欲情| 久久做受www| 这里只有精品免费视频| 韩国日本三级在线观看| 亚洲色宗合| 亚洲一二区在线视频播放| 亚洲女同精品久久女同| 国产美女裸身网站免费观看视频| 亚洲最大福利视频网| 亚洲18禁| 九九精品视频在线免费观看| 在线视频一区二区在线观看| 国产精品亚欧美一区二区三区| 无码人妻aⅴ一区二区三区蜜桃| 精品 无码 国产观看| 高清无码中文字幕亚洲| 午夜性爽视频男人的天堂| 欧美熟妇乱子伦XX视频| 人妻少妇精品中文字幕av| 亚洲女同同性少妇熟女| 亚洲男人天堂网| 精品久久久bbbb人妻| 美女内射毛片在线看3d| 啪啪av一区二区三区| 久久亚洲精品情侣| 亚洲精品久久久无码aⅴ片恋情| 久热超碰| 日本成人三级| 国产一区二区日韩在线| 99热国产在线| 乱色熟女综合一区二区| 永久免费精品性爱网站| 亚洲欧美一区二区三区在线| 国产成人无码免费看片软件| 亚洲狠狠婷婷综合久久蜜芽| 欧美老熟妇乱大交XXXXX| 99久久久无码国产精品不卡| 菠萝菠萝蜜午夜视频在线播放观看| 啪啪电影| 天天色无码| 国产成人久久精品激情91|