前天凌晨Anthropic發了Opus 4.8。模型能力其實沒見多大長進,但有兩個跟分數無關的動作值得留意:一是把自家Fast模式的價格砍到原來的三分之一,二是新增了能一口氣調起幾十上百個subagent的Dynamic Workflows。
連最前沿的玩家都把勁兒使在「怎么把一大堆agent又快又穩地跑起來」上,而不是單純堆智能。這其實是個信號:到了生產級的環境里,「快速、高效地執行」正在變成新的勝負手。
巧的是,同一天階躍星辰也開源了Step 3.7 Flash,主打的正好是這件事:agent效率,在真實工作流里更快更穩地把整條鏈路跑完,開源,還明說能接進Claude Code等各種主流agent。我看到的第一反應就是:那就拿它來測一測,一個國產開源模型,到底能不能站上這個位置。
我試模型,一般直接上女媧和達爾文
每次有新模型出來,大家都先看跑分。我倒是養成了另一個習慣。
我手里有兩個自己寫的skill,一個叫女媧,一個叫達爾文。女媧在GitHub上攢了兩萬多star,干的事是輸入一個人名,自動深度調研、提煉思維框架,最后生成一個能跑的人物skill。達爾文更新,前幾天剛發布2.0,專門給別的skill打分、提改進、改完再打分。
為什么拿這倆當試題?不光是因為它們「重」。真正的原因是,它們里頭都設了檢查點——該停下來問我的地方。
這件事benchmark測不了。跑分測的是「答得對不對」,測不了「該閉嘴的時候它閉不閉嘴」。而能力不夠的模型最容易翻車的,恰恰就是這個:跑著跑著自己加戲、十幾次工具調用里掉一次鏈子、本該停下來問我的時候一頭扎過去,把整條鏈路帶溝里。一個模型聰不聰明,看跑分能看出個大概;但它在長任務里靠不靠譜,只有真的跑一遍才知道。
所以拿女媧和達爾文試,比看十張benchmark表都直接。這次輪到Step 3.7 Flash。
先說這是個什么模型
Step 3.7 Flash是階躍5月底發布并開源的新一代Flash模型,Apache 2.0協議,權重在GitHub、HuggingFace、ModelScope都能下載,也支持本地部署。
它最有意思的設計,是那個稀疏MoE架構。你可以把它想成一個博士天團那么大的知識庫,但每次回答只叫醒最相關的一小隊專家上場,用不著把所有人都吵醒。所以它體量不小,跑起來又快又輕。最高生成速度能到每秒400個token,上下文256K。更細的參數感興趣可以去官網翻,正文就不堆了。
階躍給它的定位很克制,不說自己最聰明,主打的是「agent效率」,在真實任務里又快又穩地把活從頭跑到尾、中間不掉鏈子。官方放了一組benchmark,我截在這兒,你可以自己看。
![]()
它不是樣樣第一,這本來也不是它的目標。在SWE-Bench、ClawEval這些agent類基準上,它拿到的是同體量里相當能打的成績。真正的賣點不是分數最高,是用小得多的激活參數、更快的速度,把這個水平穩定地交付出來。
對我來說最關鍵的是另一件事。階躍官方文檔里明明白白列了一排它能直接接入的工具:Claude Code、OpenClaw、Hermes Agent、Cline、Roo Code、Kilo Code、Open Code。 這就好辦了,我平時這套女媧、達爾文的工作流底座就是Claude Code,既然官方說能接,我不用專門改造什么,直接把底模換成Step 3.7 Flash就行。成本這塊我也順手記了下,按官方控制臺每百萬token輸入1.35元、輸出8.1元,是Flash該有的水平,不過這次我更關心的是另一件事——它把活一步不落干完的樣子。
![]()
我是怎么試的
先把環境擺清楚,免得說不清。
底模是step-3.7-flash,通過CCR路由進Claude Code,我配了個stepfun命令,敲下去啟動的就是Step 3.7 Flash驅動的Claude Code,不動我平時的默認配置。
![]()
聯網搜索這塊有個小插曲。換了底模之后,Claude Code原生的搜索用不了了(那是另一套服務端機制,跟模型本身無關),我改接了Tavily的MCP,讓模型用普通的工具調用去搜,實測能搜到真東西。整個過程模型自己跑,我只在它停下來問我的檢查點上點頭或搖頭,沒替它改過答案。
主菜:女媧造一個AI投資視角
我給女媧的任務是,蒸餾一個AI領域的投資視角,幫我做投資判斷和技術理解。
它先跟我確認了人選,然后干了件挺重的事,一口氣開了6個子agent并行調研。每個agent盯一個維度:有的扒著作和系統研究,有的找長訪談,有的研究表達風格,還有的去搜外部批評、決策記錄、最新動態。
這是第一個考驗。6個agent同時在后臺跑,有的5分鐘就回來,有的足足跑了22分鐘。Step 3.7 Flash得一邊等、一邊把這些并行任務的狀態都管住,不能把誰的結果跟誰的搞混,也不能因為某個慢就崩掉。它穩穩扛住了。說句實話,中間有2個調研agent是重試了一次才成的,但這種程度的retry在長任務里很正常,它自己處理掉了,沒讓我操心。
![]()
等6個agent全回來,它沒有急著往下沖。而是停下來,把調研質量整理成一張摘要,問我:質量OK,要不要進入下一步提煉框架?
這一下就讓我對它好感倍增。前面說過,這正是能力不夠的模型最容易翻車的地方:該問的不問,自作主張沖過去。它沒有,它老老實實停下來等我回了句「可以」才繼續。
我確認之后,它讀完6份調研,提煉出6個核心思維模型、8條決策啟發式,加一整套表達風格,一次性生成了一個能跑的人物skill。生成完它還自己啟動了獨立的評審agent來挑毛病。這點特別對我胃口,因為我自己定的鐵律就是寫東西的AI不能審自己,它照做了,然后按評審意見補了觸發詞、事實核查這些細節。
調研、提煉、生成、自評、改進,一整套Agent loop從頭到尾跑通了。
這就是「agent效率」想說的事
跑完女媧,我對「agent效率」這個詞有了具體的體會。
我試過的模型常有兩種毛病。一種偷懶:任務一復雜,它就懶得一步步走,直接蹦個結果給你,中間該做的調研、該調的工具全跳過,看著快,其實是糊弄。另一種正相反,太勤勞,像個害羞的做題家,一頭扎進去埋頭苦干,卻不懂在該停的地方停下來跟我匯報、跟我確認,等你回過神,它已經按自己的理解跑出老遠。一個偷工減料,一個過猶不及,兩種都挺影響實際好不好用。
Step 3.7 Flash兩頭都沒沾:該走的全程一步沒省,該停下來問我的地方又老老實實停住。它要的不是某項分數最高,是既不偷懶、也不擅自做主。 這跟「智商」關系不大,跟「靠譜」關系很大。而靠譜,才是agent能不能真正干活的分水嶺。
彩蛋:拿剛發布的達爾文2.0再壓一道
女媧跑完我有點意猶未盡,順手又上了達爾文。
得交代下背景。達爾文2.0是我前陣子剛發布的大升級,吸收了微軟研究院同期掛出的兩篇skill優化論文。整套機制比1.0重了不少:每一輪要啟動兩個互相獨立的評委agent打分、改完必須驗證分數真漲了才接受、不漲就自動回滾、關鍵節點還設了強制暫停等我確認的卡口。這套機制對模型和工具的編排能力,要求比女媧還高。
正因為要求高,拿它當壓力測試最合適。我讓Step 3.7 Flash用達爾文去優化我另一個寫脫口秀的skill。
它跑得有模有樣:先建了git分支,設計測試用例,跑一輪基線評分,定位出最弱的一維是「檢查點設計」。然后開始一輪一輪地改,每輪都老老實實重新啟動兩個全新的獨立評委來盲評,改完就commit一次。改到后面漲幅收窄,早停機制觸發,它自己停了手。
![]()
誠實說,這次也不是完美無瑕。中間有一兩處編輯操作報錯,那更多是我本地工具環境的毛病,不是模型的鍋,它退回去換個方式重試就過了。一個測試要是順到一點磕碰都沒有,我反而不信。
重點是,一個我自己設計的、要求很高的復雜流程,被一個開源的Flash從頭到尾、規規矩矩地跑完了。能把這套多評委、回滾、檢查點的機制完整執行下來,并且執行效果基本和我用訂閱的claude code類似,還挺超出預期的。
我的判斷
其實,Step 3.7 Flash的能力比我上面表達的更豐富一些,這次試的只是文本類的agent工作流,它原生的多模態、視覺搜索那些能力我還沒碰。感興趣的可以去看看官方的案例,我覺得對于需要投喂圖片去表達自己觀點和需求的場景,視覺理解能力還挺關鍵的。
就我這兩套最吃鏈路穩定性的重活來說,它交出的答卷讓我有點意外。我本來的預期是,換個更小更快的Flash多少得忍受點跑偏和折損,結果它該并行并行、該停下停下、該回滾回滾,把整套流程穩穩走完了。我覺得已經是個挺穩健可用的agent基座了。
說回開頭。Anthropic用降價和Dynamic Workflows押的注,階躍用一個開源Flash押的注,其實是同一件事:在生產環境里把復雜agent流程又快又穩地跑完,正在變成比「誰家分數更高」更要緊的能力。如果你也想用上Claude Code、codex這類工具,又卡在成本或別的原因上,一個能接進Claude Code、開源、又能把整條鏈路穩穩跑完的國產模型,確實值得一試。能把復雜Agent工作流可靠跑完的能力,正在從最頂尖的那幾個閉源模型,擴散到開源模型上。 對想把工具攥在自己手里的人來說,這個趨勢比任何一次跑分刷新都值得高興。
具體怎么接,你也不用怕折騰。階躍官網把每個harness(Claude Code、Cline這些)的接入方式都寫了詳細說明,照著配就行。實在懶得自己弄,還有個更省事的法子:把那幾篇接入文檔直接丟給任何一個你能用上的國產電腦端agent,讓它幫你配,基本都能搞定。 讓agent幫你接上一個能干活的模型,這事本身就挺有意思的。
下次再有人問我新模型行不行,我大概還是那句話:別光看分,塞進女媧和達爾文里跑一圈,就知道了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.