<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      階躍Step 3.7 Flash實測:國產開源模型,能不能頂上Claude Code

      0
      分享至

      前天凌晨Anthropic發了Opus 4.8。模型能力其實沒見多大長進,但有兩個跟分數無關的動作值得留意:一是把自家Fast模式的價格砍到原來的三分之一,二是新增了能一口氣調起幾十上百個subagent的Dynamic Workflows。

      連最前沿的玩家都把勁兒使在「怎么把一大堆agent又快又穩地跑起來」上,而不是單純堆智能。這其實是個信號:到了生產級的環境里,「快速、高效地執行」正在變成新的勝負手。

      巧的是,同一天階躍星辰也開源了Step 3.7 Flash,主打的正好是這件事:agent效率,在真實工作流里更快更穩地把整條鏈路跑完,開源,還明說能接進Claude Code等各種主流agent。我看到的第一反應就是:那就拿它來測一測,一個國產開源模型,到底能不能站上這個位置。

      我試模型,一般直接上女媧和達爾文

      每次有新模型出來,大家都先看跑分。我倒是養成了另一個習慣。

      我手里有兩個自己寫的skill,一個叫女媧,一個叫達爾文。女媧在GitHub上攢了兩萬多star,干的事是輸入一個人名,自動深度調研、提煉思維框架,最后生成一個能跑的人物skill。達爾文更新,前幾天剛發布2.0,專門給別的skill打分、提改進、改完再打分。

      為什么拿這倆當試題?不光是因為它們「重」。真正的原因是,它們里頭都設了檢查點——該停下來問我的地方。

      這件事benchmark測不了。跑分測的是「答得對不對」,測不了「該閉嘴的時候它閉不閉嘴」。而能力不夠的模型最容易翻車的,恰恰就是這個:跑著跑著自己加戲、十幾次工具調用里掉一次鏈子、本該停下來問我的時候一頭扎過去,把整條鏈路帶溝里。一個模型聰不聰明,看跑分能看出個大概;但它在長任務里靠不靠譜,只有真的跑一遍才知道

      所以拿女媧和達爾文試,比看十張benchmark表都直接。這次輪到Step 3.7 Flash。

      先說這是個什么模型

      Step 3.7 Flash是階躍5月底發布并開源的新一代Flash模型,Apache 2.0協議,權重在GitHub、HuggingFace、ModelScope都能下載,也支持本地部署。

      它最有意思的設計,是那個稀疏MoE架構。你可以把它想成一個博士天團那么大的知識庫,但每次回答只叫醒最相關的一小隊專家上場,用不著把所有人都吵醒。所以它體量不小,跑起來又快又輕。最高生成速度能到每秒400個token,上下文256K。更細的參數感興趣可以去官網翻,正文就不堆了。

      階躍給它的定位很克制,不說自己最聰明,主打的是「agent效率」,在真實任務里又快又穩地把活從頭跑到尾、中間不掉鏈子。官方放了一組benchmark,我截在這兒,你可以自己看。


      它不是樣樣第一,這本來也不是它的目標。在SWE-Bench、ClawEval這些agent類基準上,它拿到的是同體量里相當能打的成績。真正的賣點不是分數最高,是用小得多的激活參數、更快的速度,把這個水平穩定地交付出來。

      對我來說最關鍵的是另一件事。階躍官方文檔里明明白白列了一排它能直接接入的工具:Claude Code、OpenClaw、Hermes Agent、Cline、Roo Code、Kilo Code、Open Code。 這就好辦了,我平時這套女媧、達爾文的工作流底座就是Claude Code,既然官方說能接,我不用專門改造什么,直接把底模換成Step 3.7 Flash就行。成本這塊我也順手記了下,按官方控制臺每百萬token輸入1.35元、輸出8.1元,是Flash該有的水平,不過這次我更關心的是另一件事——它把活一步不落干完的樣子。


      我是怎么試的

      先把環境擺清楚,免得說不清。

      底模是step-3.7-flash,通過CCR路由進Claude Code,我配了個stepfun命令,敲下去啟動的就是Step 3.7 Flash驅動的Claude Code,不動我平時的默認配置。


      聯網搜索這塊有個小插曲。換了底模之后,Claude Code原生的搜索用不了了(那是另一套服務端機制,跟模型本身無關),我改接了Tavily的MCP,讓模型用普通的工具調用去搜,實測能搜到真東西。整個過程模型自己跑,我只在它停下來問我的檢查點上點頭或搖頭,沒替它改過答案。

      主菜:女媧造一個AI投資視角

      我給女媧的任務是,蒸餾一個AI領域的投資視角,幫我做投資判斷和技術理解。

      它先跟我確認了人選,然后干了件挺重的事,一口氣開了6個子agent并行調研。每個agent盯一個維度:有的扒著作和系統研究,有的找長訪談,有的研究表達風格,還有的去搜外部批評、決策記錄、最新動態。

      這是第一個考驗。6個agent同時在后臺跑,有的5分鐘就回來,有的足足跑了22分鐘。Step 3.7 Flash得一邊等、一邊把這些并行任務的狀態都管住,不能把誰的結果跟誰的搞混,也不能因為某個慢就崩掉。它穩穩扛住了。說句實話,中間有2個調研agent是重試了一次才成的,但這種程度的retry在長任務里很正常,它自己處理掉了,沒讓我操心。


      等6個agent全回來,它沒有急著往下沖。而是停下來,把調研質量整理成一張摘要,問我:質量OK,要不要進入下一步提煉框架?

      這一下就讓我對它好感倍增。前面說過,這正是能力不夠的模型最容易翻車的地方:該問的不問,自作主張沖過去。它沒有,它老老實實停下來等我回了句「可以」才繼續。

      我確認之后,它讀完6份調研,提煉出6個核心思維模型、8條決策啟發式,加一整套表達風格,一次性生成了一個能跑的人物skill。生成完它還自己啟動了獨立的評審agent來挑毛病。這點特別對我胃口,因為我自己定的鐵律就是寫東西的AI不能審自己,它照做了,然后按評審意見補了觸發詞、事實核查這些細節。

      調研、提煉、生成、自評、改進,一整套Agent loop從頭到尾跑通了。

      這就是「agent效率」想說的事

      跑完女媧,我對「agent效率」這個詞有了具體的體會。

      我試過的模型常有兩種毛病。一種偷懶:任務一復雜,它就懶得一步步走,直接蹦個結果給你,中間該做的調研、該調的工具全跳過,看著快,其實是糊弄。另一種正相反,太勤勞,像個害羞的做題家,一頭扎進去埋頭苦干,卻不懂在該停的地方停下來跟我匯報、跟我確認,等你回過神,它已經按自己的理解跑出老遠。一個偷工減料,一個過猶不及,兩種都挺影響實際好不好用。

      Step 3.7 Flash兩頭都沒沾:該走的全程一步沒省,該停下來問我的地方又老老實實停住。它要的不是某項分數最高,是既不偷懶、也不擅自做主。 這跟「智商」關系不大,跟「靠譜」關系很大。而靠譜,才是agent能不能真正干活的分水嶺。

      彩蛋:拿剛發布的達爾文2.0再壓一道

      女媧跑完我有點意猶未盡,順手又上了達爾文。

      得交代下背景。達爾文2.0是我前陣子剛發布的大升級,吸收了微軟研究院同期掛出的兩篇skill優化論文。整套機制比1.0重了不少:每一輪要啟動兩個互相獨立的評委agent打分、改完必須驗證分數真漲了才接受、不漲就自動回滾、關鍵節點還設了強制暫停等我確認的卡口。這套機制對模型和工具的編排能力,要求比女媧還高。

      正因為要求高,拿它當壓力測試最合適。我讓Step 3.7 Flash用達爾文去優化我另一個寫脫口秀的skill。

      它跑得有模有樣:先建了git分支,設計測試用例,跑一輪基線評分,定位出最弱的一維是「檢查點設計」。然后開始一輪一輪地改,每輪都老老實實重新啟動兩個全新的獨立評委來盲評,改完就commit一次。改到后面漲幅收窄,早停機制觸發,它自己停了手。


      誠實說,這次也不是完美無瑕。中間有一兩處編輯操作報錯,那更多是我本地工具環境的毛病,不是模型的鍋,它退回去換個方式重試就過了。一個測試要是順到一點磕碰都沒有,我反而不信。

      重點是,一個我自己設計的、要求很高的復雜流程,被一個開源的Flash從頭到尾、規規矩矩地跑完了。能把這套多評委、回滾、檢查點的機制完整執行下來,并且執行效果基本和我用訂閱的claude code類似,還挺超出預期的。

      我的判斷

      其實,Step 3.7 Flash的能力比我上面表達的更豐富一些,這次試的只是文本類的agent工作流,它原生的多模態、視覺搜索那些能力我還沒碰。感興趣的可以去看看官方的案例,我覺得對于需要投喂圖片去表達自己觀點和需求的場景,視覺理解能力還挺關鍵的。

      就我這兩套最吃鏈路穩定性的重活來說,它交出的答卷讓我有點意外。我本來的預期是,換個更小更快的Flash多少得忍受點跑偏和折損,結果它該并行并行、該停下停下、該回滾回滾,把整套流程穩穩走完了。我覺得已經是個挺穩健可用的agent基座了。

      說回開頭。Anthropic用降價和Dynamic Workflows押的注,階躍用一個開源Flash押的注,其實是同一件事:在生產環境里把復雜agent流程又快又穩地跑完,正在變成比「誰家分數更高」更要緊的能力。如果你也想用上Claude Code、codex這類工具,又卡在成本或別的原因上,一個能接進Claude Code、開源、又能把整條鏈路穩穩跑完的國產模型,確實值得一試。能把復雜Agent工作流可靠跑完的能力,正在從最頂尖的那幾個閉源模型,擴散到開源模型上。 對想把工具攥在自己手里的人來說,這個趨勢比任何一次跑分刷新都值得高興。

      具體怎么接,你也不用怕折騰。階躍官網把每個harness(Claude Code、Cline這些)的接入方式都寫了詳細說明,照著配就行。實在懶得自己弄,還有個更省事的法子:把那幾篇接入文檔直接丟給任何一個你能用上的國產電腦端agent,讓它幫你配,基本都能搞定。 讓agent幫你接上一個能干活的模型,這事本身就挺有意思的。

      下次再有人問我新模型行不行,我大概還是那句話:別光看分,塞進女媧和達爾文里跑一圈,就知道了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      帕克:在曼聯沒人規勸加納喬嗎?他現在600次傳球有555次回傳

      帕克:在曼聯沒人規勸加納喬嗎?他現在600次傳球有555次回傳

      懂球帝
      2026-06-02 20:59:08
      工業富聯沖擊漲停!股價逼近歷史新高

      工業富聯沖擊漲停!股價逼近歷史新高

      財聞
      2026-06-02 14:05:10
      涉嫌嚴重違紀違法,蔣志剛,被查!

      涉嫌嚴重違紀違法,蔣志剛,被查!

      中國基金報
      2026-06-02 17:23:04
      善惡終有報!不顧央視警告,與劉濤傳出緋聞的楊爍,終將自食惡果

      善惡終有報!不顧央視警告,與劉濤傳出緋聞的楊爍,終將自食惡果

      圓夢的小老頭
      2026-06-01 04:51:39
      燃氣灶致癌,再添實錘!斯坦福大學:即使關著爐子,也能釋放一級致癌物,患癌風險飆升;僅烹飪1小時,NO?就超標,每年致1.9萬人死亡

      燃氣灶致癌,再添實錘!斯坦福大學:即使關著爐子,也能釋放一級致癌物,患癌風險飆升;僅烹飪1小時,NO?就超標,每年致1.9萬人死亡

      梅斯醫學
      2026-05-31 07:55:29
      盧偉G4犯迷糊了!末節死草古德溫,李添榮不給上,暫停也不叫了!

      盧偉G4犯迷糊了!末節死草古德溫,李添榮不給上,暫停也不叫了!

      籃球資訊達人
      2026-06-02 22:30:47
      單次注射,低密度脂蛋白直降62%!NEJM最新:打一針管18個月,降脂治療迎來"顛覆性時刻"

      單次注射,低密度脂蛋白直降62%!NEJM最新:打一針管18個月,降脂治療迎來"顛覆性時刻"

      梅斯醫學
      2026-06-02 08:36:10
      《007:初露鋒芒》邦女郎幕后演員揭曉

      《007:初露鋒芒》邦女郎幕后演員揭曉

      山月不知2
      2026-06-02 06:33:27
      中國足球小將奪冠登熱搜第一!全網膜拜董路 14名小球員高舉獎杯

      中國足球小將奪冠登熱搜第一!全網膜拜董路 14名小球員高舉獎杯

      念洲
      2026-06-02 20:43:47
      廣廈1:3上海!3個沒想到:5首發燃盡+替補僅2分,上海放虎歸山?

      廣廈1:3上海!3個沒想到:5首發燃盡+替補僅2分,上海放虎歸山?

      劉哥談體育
      2026-06-02 21:46:09
      外賣大戰的“炮灰”,過剩的1600萬騎手

      外賣大戰的“炮灰”,過剩的1600萬騎手

      深水財經社
      2026-05-31 12:14:09
      文班亞馬評選歷史最佳五虎,名單公布后熱搜,第一是“科比無緣”

      文班亞馬評選歷史最佳五虎,名單公布后熱搜,第一是“科比無緣”

      十點體壇
      2026-06-02 21:15:46
      蔣中正親筆書寫的任命狀沖上熱議!書法的好壞,永遠意見不一?

      蔣中正親筆書寫的任命狀沖上熱議!書法的好壞,永遠意見不一?

      書畫相約
      2026-06-01 07:23:51
      王健林現在的個人合法財富有多少,你想破腦袋都想不到

      王健林現在的個人合法財富有多少,你想破腦袋都想不到

      趣味萌寵的日常
      2026-06-02 17:40:36
      他是贏球功臣!7中5+打中三分,樓明為他鼓掌,球迷:早該用他了

      他是贏球功臣!7中5+打中三分,樓明為他鼓掌,球迷:早該用他了

      南海浪花
      2026-06-02 22:26:52
      謝霆鋒王菲秀恩愛不到24小時,張柏芝官宣2大喜訊,迎來口碑暴漲

      謝霆鋒王菲秀恩愛不到24小時,張柏芝官宣2大喜訊,迎來口碑暴漲

      八斗小先生
      2026-06-01 18:21:45
      4年8000萬!這是馬刺能給尚帕尼的全部,他成進總決賽獎勵第一人

      4年8000萬!這是馬刺能給尚帕尼的全部,他成進總決賽獎勵第一人

      奕辰說球
      2026-06-02 09:23:23
      成人網紅邦妮自曝惡心計劃:6月辦尿淋派對,粉絲可尿她發生關系

      成人網紅邦妮自曝惡心計劃:6月辦尿淋派對,粉絲可尿她發生關系

      赴一場山海啊
      2026-06-01 00:27:25
      曝杜倫與活塞在續約談判中分歧巨大 雙方預期薪資存“巨大鴻溝”

      曝杜倫與活塞在續約談判中分歧巨大 雙方預期薪資存“巨大鴻溝”

      北青網-北京青年報
      2026-06-02 19:42:55
      CBA總決賽還沒結束!上海已提前開賣冠軍衫:廣廈被直接無視了?

      CBA總決賽還沒結束!上海已提前開賣冠軍衫:廣廈被直接無視了?

      籃球快餐車
      2026-06-02 18:14:36
      2026-06-02 23:20:49
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      224文章數 116關注度
      往期回顧 全部

      科技要聞

      燒掉千億后,美團、阿里、京東誰先止血?

      頭條要聞

      小學教師疑因打井糾紛殺害鄰居 死者留下兩未成年兒子

      頭條要聞

      小學教師疑因打井糾紛殺害鄰居 死者留下兩未成年兒子

      體育要聞

      1米74的業余聯賽替補,在英超踢中衛

      娛樂要聞

      奚夢瑤何猷君補辦婚禮超幸福

      財經要聞

      智元和宇樹的“暗戰”愈演愈烈

      汽車要聞

      星途神秘新車輪廓曝光 又一款性能SUV要來了?

      態度原創

      健康
      親子
      旅游
      公開課
      軍事航空

      違規干細胞應用,暗藏致命隱患!

      親子要聞

      進口針一支1.7萬,年生長11厘米,國人怒了

      旅游要聞

      奶奶,童話是真的!兒童節前一天上海迪士尼短暫的自由,開心!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗媒體新發布最高領袖照片

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品国产一二三区| 日本高清视频在线www色下载| 国产中文字幕精品在线| 国产超碰在线| 成年奭片免费观看视频天天看| 日本一区二区久久人妻高清| 亚洲成a人v欧美综合天堂下载| 国产精品青青青高清在线密亚| 99精品国产丝袜在线拍国语| 久久久亚洲欧洲日产国码αv| 成全高清在线播放电视剧| 久久99国产综合色| 毛片av中文字幕一区二区| 日韩aⅴ影视| 青青热久| 豆花AV| 欧美肥老太牲交大战| 最新A片| 国产九九免费| 国产91成人精品亚洲精品| 国产成人精品无码播放| 亚洲自拍电影| 人妻久久久| 老司机深夜福利影院| 久在线精品视频线观看| 熟女视频亚洲| 亚洲一卡二卡三卡四卡五卡六卡七卡| 亚洲欧美日韩中文综合在线不卡| 精品国产人妻一区二区三区久久| 免费吃奶摸下激烈视频| 婷婷综合在线观看丁香| 最新亚洲中文字幕在线| 日韩有码中文字幕av| 日本公妇乱偷中文字幕| 国产一区二区三区视频| 国产成人精品无码免费看动漫| 国产农村老熟女国产老熟女| 国产精品人成视频免| 2020国产微拍精品一区二区| 精品无码毛片| 色老头亚洲成人免费影院|