新京報貝殼財經訊(記者 陳維城)5月27日,小米宣布旗下MiMo-V2.5系列大模型API永久降價,最高降幅達99%,引發業界廣泛關注。討論焦點集中在一個問題上:降幅最高達99%,技術上如何實現?
5月30日,小米MiMo大模型團隊在官方技術博客首次完整公開降價背后的技術路徑。MiMo-V2.5-Pro是一個萬億參數MoE模型,采用Hybrid SWA架構:70層中60層僅計算局部窗口注意力,10層保留全局視野。理論上,這種設計能將KVCache存儲和計算量壓至Full Attention的1/7。
“理論上的架構優勢,并不會天然轉化為真實線上系統的效率優勢。”MiMo團隊在技術博客中指出,在生產環境中,分布式緩存狀態不一致、前綴匹配語義失效、多級存儲搬運延遲等工程挑戰,會將理論收益大幅削減。
五項突破分別作用于推理鏈路的不同環節,存儲、緩存、調度、解碼、多模態。KVCache雙池釋放的顯存空間,被GCache用于擴大緩存容量;更大的緩存容量提高了命中率;更高的命中率減少了Prefill重算量;Prefill加速又為Decode騰出了更多調度余量。
MiMo團隊介紹,整條推理鏈路的成本結構被系統性地改變,這也是降價99%依然能維持收支平衡的技術底氣。
MiMo-V2.5系列模型降價消息發布后,全球開發者社區迅速被點燃。在海外技術論壇和社交平臺上,圍繞“降價99%為什么還不虧”的討論熱度持續攀升,大量開發者自發分析 MiMo的推理架構和成本結構。
不少開發者驚嘆“優質模型的成本正在以驚人的速度下降,智能的發展速度快得真正無法衡量”。同時還有大量開發者點贊以MiMo為代表的中國模型性能強大、速度快,“中國AI模型比美國AI泡沫模型便宜90%到95%,不僅價格低廉、速度快,并且對于大多數現實世界用例來說足夠實用,AI泡沫未來可能被成本曲線崩塌所扼殺。”
在全球知名API調用平臺OpenRouter上,Xiaomi MiMo-V2.5系列大模型調用量在迅速攀升,截至5月30日,MiMo-V2.5躋身日榜第三、周榜第十,MiMo-V2.5-Pro躋身日榜第七、周榜第八。
此次技術博客的發布,也是小米MiMo對近期外界質疑的一次正面回應,不僅將一整套模型推理系統全鏈路優化所節省的成本通過API降價回饋給用戶,同時已將這次優化的技術細節以 PR 形式回饋 SGLang 開源社區,希望盡早讓工程優化不再成為門檻,使這類兼具強度與效率的復合架構得到更廣泛的探索與應用。
除了降價和開源,MiMo對開發者生態的投入還在持續加碼。4月28日推出的“百萬億Token創造者激勵計劃”已圓滿收官:總申請人數超過54萬人,覆蓋科研學術、制造工業等行業,累計發放100萬億免費Token,折合人民幣超6500萬元。
同期啟動的“Agent生態共建計劃”面向Agent框架團隊提供Token扶持,首批13家合作伙伴名單已公布,小米為這些框架和合作方提供了限免Token支持。“開源的價值不止于權重公開,更在于生態共建。”小米MiMo團隊表示。
編輯 羅亦丹
校對 付春愔
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.