文 | AIDeepDive
今天打開手機,原本只想掃一眼股價,結(jié)果看到了MiniMax股價大跌15%。
然后趕快去翻了翻新聞,原來是M3發(fā)布了。
我讀了一下M3的技術(shù)報告,坦白說,真的不差,從各項benchmark來看,甚至是驚艷的。
SWE-Bench Pro 59%,超了GPT-5.5,逼近Opus 4.7,BrowseComp 83.5直接把Opus 4.7踩在腳下,百萬上下文,原生多模態(tài),外加自研MSA稀疏注意力架構(gòu)。
雖然股價一直跟業(yè)績和實力沒什么關(guān)系,但這兩個信息放在一起更詭異了。
我又翻了下X上的評論和開發(fā)者社區(qū),結(jié)果罵聲確實比叫好聲更響,特別是中文社區(qū)。
那確實要聊聊這兩級分化了。
先說說指標(biāo)里的“小心思”
59%的SWE-Bench Pro,這個數(shù)字本身沒什么問題。
SWE-Bench Pro是目前公認(rèn)最接近真實軟件工程場景的基準(zhǔn),考的是用代碼修真實項目里的bug,還得跑測試驗證,不能蒙,含金量是夠的。59%是個實打?qū)嵉母叻帧?/p>
![]()
但翻到MiniMax技術(shù)報告里,Terminal Bench 2和VIBE-Pro這兩個測試有一行注釋,它寫著,使用了Claude Code作為評測腳手架進(jìn)行測試。 !
![]()
這意味著MiniMax采用了Claude Code的工具鏈,測自己模型的Coding能力,然后拿這個分?jǐn)?shù)去跟Claude Opus 4.7做比較。
這個操作我不是很能理解。
我不清楚其他的模型是否也是這樣評測的?只有MiniMax說了“真話”?又或者只有MiniMax是這樣的?
我仔細(xì)翻了一下,其實SWE benchmark、Terminal Bench 2和VIBE-Pro都是基于Claude Code做的測試。
準(zhǔn)確來說,像Terminal Bench 2這類需要在環(huán)境里連續(xù)執(zhí)行工具調(diào)用的Agent評測,在當(dāng)前行業(yè)里用腳手架跑是慣例,Claude Code、OpenCode都是常見選擇。
腳手架本身不是問題,問題在于,當(dāng)你用A的框架測B的能力,然后對外宣傳跟A比肩,這樣就有點“不講武德”了。
模型的原生能力,跟“用某個腳手架跑出來的能力”,是兩件事。
用戶很難分辨SWE-Bench Pro 59%這個數(shù)據(jù)里有多少是模型能力,有多少是腳手架加成,這就難怪很多人已經(jīng)完全不信各種評測指標(biāo)了。
![]()
在MiniMax官號下面,這樣的吐槽比比皆是。
![]()
我們來說說“開源”的誠意
與其他發(fā)布的開源模型不同,MiniMax這次沒有公布模型大小。
究竟是一個多大的模型取得了這樣的成績?這讓開發(fā)者們充滿困惑。
其次讓很多開發(fā)者不滿的,是沒有公布模型“權(quán)重”。官方說法是“發(fā)布后10天內(nèi)開源”,模型先API上線,權(quán)重后面跟上。
這又回到了上面的話題,這種做法充滿“心機”。面向一向追求坦誠的程序員來說,這種做法可以理解,但不那么“坦蕩”。
為什么這么說?這種安排,更多是商業(yè)邏輯上的考慮,我覺得我特別能理解。就是先通過API收回一波成本,再開源,無可厚非。
但如果你今天對社區(qū)宣傳的是“開源”,但又不給權(quán)重,社區(qū)沒有辦法在本地環(huán)境里驗證任何評測數(shù)據(jù)。所有人只能通過API訪問模型,既無法復(fù)現(xiàn)benchmark,也無法獨立摸清模型底細(xì)。
開源社區(qū)的核心價值就是“可復(fù)現(xiàn)、可驗證”。
所以當(dāng)先宣傳開源,再說權(quán)重“過幾天給“,這兩件事放在一起,社區(qū)的質(zhì)疑聲也就很自然了。
類似這種
![]()
或者這種
![]()
最渣心的,還是Coding Plan的調(diào)整
前兩個都還是技術(shù)范疇的討論,Coding Plan的調(diào)整才是罵聲最集中的地方。
以前MiniMax的Coding Plan一直以“量大管飽”著稱。
它是按照請求次數(shù)來做模型,限制的是速率,每5小時滾動窗口內(nèi)的請求次數(shù),但沒有月度Token總量的上限。一個重度開發(fā)者,只要不超速,可以持續(xù)低速地跑。
有老用戶算過,他一個月實際跑下來消耗了三十億token,有的甚至五十億+,而月費就是那幾十塊錢。
這是之前的“黃金時代”,每個月無上限地跑,自己控制節(jié)奏。
但是,在沒有預(yù)告的情況下,M3發(fā)布同步推了Token Plan,把這套規(guī)則改了。
改成了什么?按總量來看。Plus套餐49塊6億token,官方說相當(dāng)于Claude Pro 5倍用量,聽起來很劃算。
但官方細(xì)則深究一下,這個6億token是按單次調(diào)用50K token來估算的,折算出來大約是12000次調(diào)用。
![]()
你想想看,M3支持百萬上下文,真正的重度使用場景,單次調(diào)用幾十萬token是常態(tài),6億token一下子就見底了。
更不接受的是原來承諾老用戶不受周限額限制,現(xiàn)在卻出爾反爾。這怎么可能不炸呢?
![]()
官方很快出來回應(yīng):
![]()
V2EX上有用戶直接把這次和之前的“代金券事件”并列,說MiniMax這是又背刺了一次老用戶。
能讓用戶翻出來歷史賬單一起算,說明積累的信任是真的在消耗。
說回技術(shù)本身,MSA這個創(chuàng)新有點意思
其實,MiniMax的這個發(fā)布是有點意思的,但都被一系列“騷操作”蓋住了。
特別是M3的底層架構(gòu)創(chuàng)新,我個人覺得還是有一些新東西令人興奮的。
MiniMax自研了一個叫MSA(MiniMax Sparse Attention)的稀疏注意力機制。
![]()
傳統(tǒng)Transformer的注意力計算是O(n2)的,上下文長度翻10倍,計算量暴漲100倍,這是做長上下文一直繞不開的魔咒。
MSA的思路是對KV(Key-Value)做高精度的分塊,然后做稀疏化,相比之前DSA、MoBA這些方案,它能更精準(zhǔn)地覆蓋到有用的上下文,而不是隨機裁掉一些。
與此相關(guān)的是底層算子層面,首創(chuàng)了「以KV為外循環(huán)去聚合Q」的計算方式,每個KV塊只被讀一次,內(nèi)存訪問是連續(xù)的,速度比開源的Flash-Sparse-Attention快4倍以上。
實際效果,跟上一代M2相比,在百萬上下文下,prefilling階段加速超過9倍,decoding加速超過15倍,單token計算量只有上一代的1/20。
這個方案與之前DeepSeek的路徑也有所不同。DeepSeek V4主攻的是“混合壓縮架構(gòu)”與“極低精度計算” (CSA + HCA機制)。
這意味著什么,以前跑百萬上下文是奢侈品,現(xiàn)在是真的能用的基礎(chǔ)設(shè)施了。
從技術(shù)路線來看,MiniMax在長上下文、多模態(tài)和Agent能力這三塊的均衡程度,在國內(nèi)廠商里確實算突出的。
其他家可能某一塊打得很猛,但三個同時達(dá)到前沿水位的,M3是第一個對外宣稱的。這個宣稱對不對,等獨立評測結(jié)果出來再看,但方向本身是很清晰的。
最后說幾句
真不知道應(yīng)該怎么理解這次M3的發(fā)布,是因為沉寂太久,所以太著急?太焦慮了?
模型本身是在進(jìn)步的,MSA架構(gòu)是真創(chuàng)新,長上下文推理效率是實打?qū)嵦嵘耍B(tài)均衡(而且是原生多模態(tài))這件事也確實是難的。
但發(fā)布的方式確實是在消耗用戶信任,這在爭搶開發(fā)者的市場里,這番操作讓人看不明白。
開源社區(qū)的理解很樸素,你說開源就得給權(quán)重,你說誠意就別搞文字游戲,你要改價格就得提前說清楚。
現(xiàn)在的局面,罵聲和期待同時存在,這本身是個好信號,說明大家還在關(guān)注,還有情緒,還沒有走人。
就看MiniMax接下來這10天,權(quán)重放出來之后,獨立評測會不會把那些指標(biāo)打回原形了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.