網易首頁 > 網易號 > 正文申請入駐

降價99%依然收支平衡，小米披露全鏈路推理技術優化細節

2026-05-31 19:06:02　來源: 貝殼財經

北京舉報

分享至

新京報貝殼財經訊（記者陳維城）5月27日，小米宣布旗下MiMo-V2.5系列大模型API永久降價，最高降幅達99%，引發業界廣泛關注。討論焦點集中在一個問題上：降幅最高達99%，技術上如何實現？

5月30日，小米MiMo大模型團隊在官方技術博客首次完整公開降價背后的技術路徑。MiMo-V2.5-Pro是一個萬億參數MoE模型，采用Hybrid SWA架構：70層中60層僅計算局部窗口注意力，10層保留全局視野。理論上，這種設計能將KVCache存儲和計算量壓至Full Attention的1/7。

“理論上的架構優勢，并不會天然轉化為真實線上系統的效率優勢。”MiMo團隊在技術博客中指出，在生產環境中，分布式緩存狀態不一致、前綴匹配語義失效、多級存儲搬運延遲等工程挑戰，會將理論收益大幅削減。

五項突破分別作用于推理鏈路的不同環節，存儲、緩存、調度、解碼、多模態。KVCache雙池釋放的顯存空間，被GCache用于擴大緩存容量；更大的緩存容量提高了命中率；更高的命中率減少了Prefill重算量；Prefill加速又為Decode騰出了更多調度余量。

MiMo團隊介紹，整條推理鏈路的成本結構被系統性地改變，這也是降價99%依然能維持收支平衡的技術底氣。

MiMo-V2.5系列模型降價消息發布后，全球開發者社區迅速被點燃。在海外技術論壇和社交平臺上，圍繞“降價99%為什么還不虧”的討論熱度持續攀升，大量開發者自發分析 MiMo的推理架構和成本結構。

不少開發者驚嘆“優質模型的成本正在以驚人的速度下降，智能的發展速度快得真正無法衡量”。同時還有大量開發者點贊以MiMo為代表的中國模型性能強大、速度快，“中國AI模型比美國AI泡沫模型便宜90%到95%，不僅價格低廉、速度快，并且對于大多數現實世界用例來說足夠實用，AI泡沫未來可能被成本曲線崩塌所扼殺。”

在全球知名API調用平臺OpenRouter上，Xiaomi MiMo-V2.5系列大模型調用量在迅速攀升，截至5月30日，MiMo-V2.5躋身日榜第三、周榜第十，MiMo-V2.5-Pro躋身日榜第七、周榜第八。

此次技術博客的發布，也是小米MiMo對近期外界質疑的一次正面回應，不僅將一整套模型推理系統全鏈路優化所節省的成本通過API降價回饋給用戶，同時已將這次優化的技術細節以 PR 形式回饋 SGLang 開源社區，希望盡早讓工程優化不再成為門檻，使這類兼具強度與效率的復合架構得到更廣泛的探索與應用。

除了降價和開源，MiMo對開發者生態的投入還在持續加碼。4月28日推出的“百萬億Token創造者激勵計劃”已圓滿收官：總申請人數超過54萬人，覆蓋科研學術、制造工業等行業，累計發放100萬億免費Token，折合人民幣超6500萬元。

同期啟動的“Agent生態共建計劃”面向Agent框架團隊提供Token扶持，首批13家合作伙伴名單已公布，小米為這些框架和合作方提供了限免Token支持。“開源的價值不止于權重公開，更在于生態共建。”小米MiMo團隊表示。

編輯羅亦丹

校對付春愔

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.