網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

MiniMax M3終于來了，指標(biāo)很強，但社區(qū)炒翻了

2026-06-03 08:30:26　來源: 鈦媒體APP

北京舉報

分享至

文 | AIDeepDive

今天打開手機，原本只想掃一眼股價，結(jié)果看到了MiniMax股價大跌15%。

然后趕快去翻了翻新聞，原來是M3發(fā)布了。

我讀了一下M3的技術(shù)報告，坦白說，真的不差，從各項benchmark來看，甚至是驚艷的。

SWE-Bench Pro 59%，超了GPT-5.5，逼近Opus 4.7，BrowseComp 83.5直接把Opus 4.7踩在腳下，百萬上下文，原生多模態(tài)，外加自研MSA稀疏注意力架構(gòu)。

雖然股價一直跟業(yè)績和實力沒什么關(guān)系，但這兩個信息放在一起更詭異了。

我又翻了下X上的評論和開發(fā)者社區(qū)，結(jié)果罵聲確實比叫好聲更響，特別是中文社區(qū)。

那確實要聊聊這兩級分化了。

先說說指標(biāo)里的“小心思”

59%的SWE-Bench Pro，這個數(shù)字本身沒什么問題。

SWE-Bench Pro是目前公認(rèn)最接近真實軟件工程場景的基準(zhǔn)，考的是用代碼修真實項目里的bug，還得跑測試驗證，不能蒙，含金量是夠的。59%是個實打?qū)嵉母叻帧?/p>

但翻到MiniMax技術(shù)報告里，Terminal Bench 2和VIBE-Pro這兩個測試有一行注釋，它寫著，使用了Claude Code作為評測腳手架進(jìn)行測試。 !

這意味著MiniMax采用了Claude Code的工具鏈，測自己模型的Coding能力，然后拿這個分?jǐn)?shù)去跟Claude Opus 4.7做比較。

這個操作我不是很能理解。

我不清楚其他的模型是否也是這樣評測的？只有MiniMax說了“真話”？又或者只有MiniMax是這樣的？

我仔細(xì)翻了一下，其實SWE benchmark、Terminal Bench 2和VIBE-Pro都是基于Claude Code做的測試。

準(zhǔn)確來說，像Terminal Bench 2這類需要在環(huán)境里連續(xù)執(zhí)行工具調(diào)用的Agent評測，在當(dāng)前行業(yè)里用腳手架跑是慣例，Claude Code、OpenCode都是常見選擇。

腳手架本身不是問題，問題在于，當(dāng)你用A的框架測B的能力，然后對外宣傳跟A比肩，這樣就有點“不講武德”了。

模型的原生能力，跟“用某個腳手架跑出來的能力”，是兩件事。

用戶很難分辨SWE-Bench Pro 59%這個數(shù)據(jù)里有多少是模型能力，有多少是腳手架加成，這就難怪很多人已經(jīng)完全不信各種評測指標(biāo)了。

在MiniMax官號下面，這樣的吐槽比比皆是。

我們來說說“開源”的誠意

與其他發(fā)布的開源模型不同，MiniMax這次沒有公布模型大小。

究竟是一個多大的模型取得了這樣的成績？這讓開發(fā)者們充滿困惑。

其次讓很多開發(fā)者不滿的，是沒有公布模型“權(quán)重”。官方說法是“發(fā)布后10天內(nèi)開源”，模型先API上線，權(quán)重后面跟上。

這又回到了上面的話題，這種做法充滿“心機”。面向一向追求坦誠的程序員來說，這種做法可以理解，但不那么“坦蕩”。

為什么這么說？這種安排，更多是商業(yè)邏輯上的考慮，我覺得我特別能理解。就是先通過API收回一波成本，再開源，無可厚非。

但如果你今天對社區(qū)宣傳的是“開源”，但又不給權(quán)重，社區(qū)沒有辦法在本地環(huán)境里驗證任何評測數(shù)據(jù)。所有人只能通過API訪問模型，既無法復(fù)現(xiàn)benchmark，也無法獨立摸清模型底細(xì)。

開源社區(qū)的核心價值就是“可復(fù)現(xiàn)、可驗證”。

所以當(dāng)先宣傳開源，再說權(quán)重“過幾天給“，這兩件事放在一起，社區(qū)的質(zhì)疑聲也就很自然了。

類似這種

或者這種

最渣心的，還是Coding Plan的調(diào)整

前兩個都還是技術(shù)范疇的討論，Coding Plan的調(diào)整才是罵聲最集中的地方。

以前MiniMax的Coding Plan一直以“量大管飽”著稱。

它是按照請求次數(shù)來做模型，限制的是速率，每5小時滾動窗口內(nèi)的請求次數(shù)，但沒有月度Token總量的上限。一個重度開發(fā)者，只要不超速，可以持續(xù)低速地跑。

有老用戶算過，他一個月實際跑下來消耗了三十億token，有的甚至五十億+，而月費就是那幾十塊錢。

這是之前的“黃金時代”，每個月無上限地跑，自己控制節(jié)奏。

但是，在沒有預(yù)告的情況下，M3發(fā)布同步推了Token Plan，把這套規(guī)則改了。

改成了什么？按總量來看。Plus套餐49塊6億token，官方說相當(dāng)于Claude Pro 5倍用量，聽起來很劃算。

但官方細(xì)則深究一下，這個6億token是按單次調(diào)用50K token來估算的，折算出來大約是12000次調(diào)用。

你想想看，M3支持百萬上下文，真正的重度使用場景，單次調(diào)用幾十萬token是常態(tài)，6億token一下子就見底了。

更不接受的是原來承諾老用戶不受周限額限制，現(xiàn)在卻出爾反爾。這怎么可能不炸呢？

官方很快出來回應(yīng)：

V2EX上有用戶直接把這次和之前的“代金券事件”并列，說MiniMax這是又背刺了一次老用戶。

能讓用戶翻出來歷史賬單一起算，說明積累的信任是真的在消耗。

說回技術(shù)本身，MSA這個創(chuàng)新有點意思

其實，MiniMax的這個發(fā)布是有點意思的，但都被一系列“騷操作”蓋住了。

特別是M3的底層架構(gòu)創(chuàng)新，我個人覺得還是有一些新東西令人興奮的。

MiniMax自研了一個叫MSA（MiniMax Sparse Attention）的稀疏注意力機制。

傳統(tǒng)Transformer的注意力計算是O(n2)的，上下文長度翻10倍，計算量暴漲100倍，這是做長上下文一直繞不開的魔咒。

MSA的思路是對KV（Key-Value）做高精度的分塊，然后做稀疏化，相比之前DSA、MoBA這些方案，它能更精準(zhǔn)地覆蓋到有用的上下文，而不是隨機裁掉一些。

與此相關(guān)的是底層算子層面，首創(chuàng)了「以KV為外循環(huán)去聚合Q」的計算方式，每個KV塊只被讀一次，內(nèi)存訪問是連續(xù)的，速度比開源的Flash-Sparse-Attention快4倍以上。

實際效果，跟上一代M2相比，在百萬上下文下，prefilling階段加速超過9倍，decoding加速超過15倍，單token計算量只有上一代的1/20。

這個方案與之前DeepSeek的路徑也有所不同。DeepSeek V4主攻的是“混合壓縮架構(gòu)”與“極低精度計算” (CSA + HCA機制）。

這意味著什么，以前跑百萬上下文是奢侈品，現(xiàn)在是真的能用的基礎(chǔ)設(shè)施了。

從技術(shù)路線來看，MiniMax在長上下文、多模態(tài)和Agent能力這三塊的均衡程度，在國內(nèi)廠商里確實算突出的。

其他家可能某一塊打得很猛，但三個同時達(dá)到前沿水位的，M3是第一個對外宣稱的。這個宣稱對不對，等獨立評測結(jié)果出來再看，但方向本身是很清晰的。

最后說幾句

真不知道應(yīng)該怎么理解這次M3的發(fā)布，是因為沉寂太久，所以太著急？太焦慮了？

模型本身是在進(jìn)步的，MSA架構(gòu)是真創(chuàng)新，長上下文推理效率是實打?qū)嵦嵘耍B(tài)均衡（而且是原生多模態(tài)）這件事也確實是難的。

但發(fā)布的方式確實是在消耗用戶信任，這在爭搶開發(fā)者的市場里，這番操作讓人看不明白。

開源社區(qū)的理解很樸素，你說開源就得給權(quán)重，你說誠意就別搞文字游戲，你要改價格就得提前說清楚。

現(xiàn)在的局面，罵聲和期待同時存在，這本身是個好信號，說明大家還在關(guān)注，還有情緒，還沒有走人。

就看MiniMax接下來這10天，權(quán)重放出來之后，獨立評測會不會把那些指標(biāo)打回原形了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

MiniMax M3來了！

機器之心Pro 2026-06-01 21:57:32
0 跟貼 0
MiniMax M3一手實測：老黃PPT上74個Logo，我以為能難住它

量子位 2026-06-02 23:42:25
0 跟貼 0

百度最強視覺識別模型來了！僅0.9B，文檔解析能力超越Gemini、GPT

智東西 2026-06-02 19:27:57
53 跟貼 53

計算所、ETH研究者提出WorldCache，視頻世界模型近無損提速3.7倍

機器之心Pro 2026-06-03 10:58:06
0 跟貼 0
剛剛，Meta Skill來了

量子位 2026-06-03 09:28:08
0 跟貼 0

阿里又發(fā)了款智能體模型：11小時造出學(xué)英語App，還能看懂地鐵線路圖

智東西 2026-06-02 22:15:06
9 跟貼 9

阿里發(fā)布Qwen3.7-Plus：屏幕理解跑贏GPT-5.4，11小時獨立開發(fā)App，“看、想、寫、做”打通了！

華爾街見聞官方 2026-06-02 12:33:31
0 跟貼 0
邏輯自洽，滿口西巴

小龍追劇 2026-05-31 19:02:33
4 跟貼 4

對標(biāo)Anthropic？5個月暴漲13倍的智譜AI憑什么

秦朔朋友圈 2026-06-03 00:06:57
2 跟貼 2
臺灣美女這一番話說的太好了，有理有據(jù)，邏輯清晰，值得聽聽!

嗷嗷夜 2026-06-02 00:49:35
38 跟貼 38
林更新，一個規(guī)則之外的男人

一知豆姐 2026-05-31 18:32:43
4 跟貼 4
GUI Agent記與學(xué)雙修，長程任務(wù)有了專屬記憶增強型自進(jìn)化框架

機器之心Pro 2026-06-02 10:28:14
0 跟貼 0
老板斥巨資請的程序員，全公司不敢惹他，直到有幸見到他的實力！

萌仔愛搞笑 2026-06-02 21:46:36
1 跟貼 1
游客吃潮汕火鍋嫌“口太淡”要挾寫“5000字差評”要免單，火鍋店最新回應(yīng)：高峰期排隊上千桌，為顧全大局妥協(xié)

洪觀新聞 2026-06-02 13:19:43
1088 跟貼 1088
字節(jié)AI大牛顧全全宣布離職，或投身AI4S創(chuàng)業(yè)

機器之心Pro 2026-06-02 16:37:54
14 跟貼 14
被辭退我痛快簽字，臨走經(jīng)理問核心代碼，我笑：刪了，申請軟著

曉艾故事匯 2026-06-03 10:08:06
0 跟貼 0
成龍向全球發(fā)出入境游邀約：歡迎感受無濾鏡的真實中國

新京報 2026-06-01 12:09:13
686 跟貼 686
李亞飛任南京師范大學(xué)副校長

江蘇新聞 2026-06-03 07:36:49
56 跟貼 56
吃片皮鴨、喝紅酒、品甜點…夏日，上海市集的煙火氣和氛圍感如何“煉成”？

上觀新聞 2026-06-01 07:34:08
974 跟貼 974
光明網(wǎng)評論員：電車該如何參與道路養(yǎng)護(hù)

澎湃新聞 2026-06-02 23:08:03
683 跟貼 683
ChatGPT迎重大升級！

雷科技 2026-06-03 06:09:31
2 跟貼 2
OpenAI爆更Codex！非碼農(nóng)也能用，9億人喜提“AI員工”

智東西 2026-06-03 07:19:41
1 跟貼 1
稻城亞丁景區(qū)彎道占比超八成，游客建議“接駁車合理收費”……記者實探→

環(huán)球網(wǎng)資訊 2026-06-02 21:36:26
572 跟貼 572
杭州人吃了60年，新豐小吃，去年虧損近400萬。大肉包、蝦肉餛飩、喉口包子為什么賣不動了？

都市快報橙柿互動 2026-06-02 22:47:52
0 跟貼 0
多地教育考試部門提醒：高考考生如戴眼鏡，入場前須接受查驗

紅網(wǎng) 2026-06-03 09:44:50
657 跟貼 657
印度擬購114架“陣風(fēng)”戰(zhàn)機，軍方稱必要時準(zhǔn)備“辛杜爾行動2.0”

澎湃新聞 2026-06-02 19:30:33
453 跟貼 453
一夜之間，ChatGPT與Codex合并了

機器之心Pro 2026-06-03 10:59:57
0 跟貼 0
世界上最快的模型車超過300公里的時速

淺夢看世界 2026-05-30 00:16:47
3 跟貼 3
被中國機車甩4秒后，居然聯(lián)名改規(guī)則？百年豪門玩不起

安安折紙 2026-06-01 03:22:18
33 跟貼 33
價值重構(gòu)：打開邊界，建立鏈接

春暖花開 2026-06-03 06:36:16
0 跟貼 0
人民銳評：外賣騎手過剩？解決老問題當(dāng)有新思維

澎湃新聞 2026-06-02 23:29:03
483 跟貼 483
日方公布遼寧艦動向這一次罕見沒有發(fā)圖

澎湃新聞 2026-06-02 21:50:13
236 跟貼 236
忍無可忍，Linux之父怒懟AI

新智元 2026-06-03 10:06:14
0 跟貼 0
大模型「行口」不一？首個專測執(zhí)行幻覺基準(zhǔn)，覆蓋真實行為越獄

新智元 2026-06-03 06:06:24
0 跟貼 0
百年時尚鐵律接連被破!王一博憑什么讓頂奢主動改規(guī)則？#王一博

娛樂在一起668 2026-06-01 06:33:25
6 跟貼 6
河南獻(xiàn)血新規(guī)落地獻(xiàn)血超千毫升終生免費用血

人民資訊 2026-06-02 15:45:21
247 跟貼 247
浙江廣廈主帥：G4無論結(jié)果如何都要拼到最后一刻

北青網(wǎng)-北京青年報 2026-06-02 13:50:14
355 跟貼 355
媽媽帶閨女去光頭強家玩，沒想到被子是塑料，網(wǎng)友被子也是模型！

爆笑論 2026-06-01 15:32:02
1 跟貼 1
曝杜倫與活塞在續(xù)約談判中分歧巨大雙方預(yù)期薪資存“巨大鴻溝”

北青網(wǎng)-北京青年報 2026-06-02 19:42:55
110 跟貼 110
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0

學(xué)歷大放水！清華一年畢業(yè)3000多博士，比哈佛耶魯?shù)任逅澜缑＜悠饋矶喑?0%

鈦媒體APP

獨立財經(jīng)科技媒體

134471文章數(shù) 862214關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

藝術(shù)

健康

軍事航空

手機 / 數(shù)碼

房產(chǎn) / 家居

MiniMax M3終于來了，指標(biāo)很強，但社區(qū)炒翻了

員工抗議鍵鼠追蹤，Meta讓步:可暫停30分鐘

受賄數(shù)額特別巨大 內(nèi)蒙古自治區(qū)政府原主席王莉霞被訴

受賄數(shù)額特別巨大 內(nèi)蒙古自治區(qū)政府原主席王莉霞被訴

選擇中國品牌的庫里，和他們的巨大野心

著名演員魏宗萬去世！曾演活司馬懿

左手通脹右手衰退，歐美當(dāng)下的困局

2030年之前 蓮花還來得及

態(tài)度原創(chuàng)

專訪北京中關(guān)村一小校長商紅領(lǐng)：落實“健康第一”，要避免3個“窄化”

一身夏裝三種模樣，跟著Mai拿捏夏日甜辣

二十年前割麥的場景

違規(guī)干細(xì)胞應(yīng)用，暗藏致命隱患！

伊朗媒體新發(fā)布最高領(lǐng)袖照片

受賄數(shù)額特別巨大內(nèi)蒙古自治區(qū)政府原主席王莉霞被訴

受賄數(shù)額特別巨大內(nèi)蒙古自治區(qū)政府原主席王莉霞被訴

2030年之前蓮花還來得及