![]()
五一假期后的第一個交易日,智譜和MiniMax都漲瘋了。
5月4日,智譜漲超10%,股價再次逼近千元關口,MiniMax大漲12.62%,報收803港元。
根據摩根士丹利的報告,股價暴漲的原因來自于中國AI獨有的“性價比敘事”。
摩根士丹利在報告《China‘s AI Path: More Bang For The Buck》中表示,在算力受到約束的前提下,中美頂尖模型的智能水平正在快速接近,差距已經收窄到3到6個月。
同時報告指出,中國模型真正突出的地方,是能以美國同行15%到20%的推理成本,實現接近同等水平的智能。
這句話其實很好理解。大家不一定需要用最強的模型,但絕大多數人都想用便宜的模型。
市場買的不是一個簡單的“國產替代”故事,而是中國AI正在把性價比轉化成真實調用量、真實收入和真實估值彈性。
但問題也隨之而來,這種性價比到底從哪里來?
如果只是低價獲客,那它很快會變成價格戰。
如果只是模型蒸餾,可現在Anthropic、OpenAI等企業,均已關閉蒸餾的入口,那么評級不應該下降嗎,怎么還調高了?
事實上,真正讓這個敘事變得更有說服力的,是智譜在五一前發布的技術博客《Scaling Pain:超大規模Coding Agent推理實踐》。
這篇博客沒有講宏大的AGI愿景,而是把KV Cache、吞吐、調度、異常輸出這些底層工程攤開給市場看。
最主要的是,它把中國AI性價比背后的秘密,給“捅破了”。
A
在這篇博客里,智譜大概講了怎么通過優化緩存、調度和異常監控,讓同樣的GPU能干更多活,出錯更少。
智譜發現,AI不好用不一定是模型不聰明,也可能是后臺運行系統太亂。它修掉了緩存串數據的問題,優化了GPU調度和緩存復用,還加了一個能提前發現異常輸出的報警器。
結果就是,同樣的模型、同樣的GPU,可以服務更多用戶,出錯概率也更低。所以它的“性價比敘事”不是單純降價,而是靠工程優化,把每張GPU榨出了更多穩定可用的算力。
經過底層工程優化,GLM-5系列在Coding Agent場景下的系統吞吐量最高提升132%,系統異常輸出率從大約萬分之10,下降到了萬分之3。
比如原來一張GPU,它原先一小時能服務100個任務,現在經過優化后,最高可能服務232個任務。
每一項單獨看,都不足以決定勝負。但疊在一起,就是同等算力下多出來的一倍吞吐,和一個數量級以上的穩定性提升。
模型沒有變。變的是模型被“用起來”的方式。
具體來講,自3月起,智譜在GLM-5的線上監控和用戶反饋中觀察到三類異常現象:亂碼、復讀、生僻字。這些現象在表面上與長上下文場景下常見的“降智”相似。
但智譜團隊沒有上線任何降低模型精度的優化。那異常究竟源于模型本身,還是源于推理鏈路?
在反復分析推理日志后,他們找到了一個意想不到的切入點:投機采樣指標可以作為異常檢測的參考信號。
投機采樣原本只是一個性能優化技術。先由草稿模型生成候選token,再由目標模型校驗并決定是否接受,從而在不改變最終輸出分布的前提下提升解碼效率。
就是讓小模型先快速生成一批答案,大模型再挑選正確的,這樣既快又準。
智譜團隊發現,當異常發生時,投機采樣的兩個指標會呈現穩定模式。于是他們把投機采樣從單純的性能優化,擴展為輸出質量的實時監控信號。
當spec_accept_length持續低于1.4且生成長度已超過128 token,或spec_accept_rate超過0.96時,系統主動中止當前生成,把請求交給負載均衡器重試。
這兩個數字就像體檢指標,一旦異常就說明模型“生病了”,需要重啟治療。
用戶雖然感知不到這個過程,但是后臺的確是完成了一次這樣的重啟。
異常的根因,是KV Cache復用沖突。
這就好比廚房,到了飯點的高峰期,很多人同時過來點單。
系統要臨時保存每個用戶的上下文,也就是KV Cache。這桌客人剛才點了什么、是要少放辣椒還是不吃香菜。一個兩個客人還好,一旦客人多了,服務員就容易記錯。
![]()
高并發時,某些緩存被回收、復用、讀取的順序亂了。結果模型拿錯了上下文,就可能輸出亂碼、復讀、生僻字。
在推理引擎中,PD分離架構下,請求生命周期與KV Cache回收與復用的時序之間存在不一致。并發壓力一大,沖突就被放大,表現在用戶端就是亂碼和復讀。
于是多個請求同時搶一塊內存,結果數據亂了套,用戶看到的就是亂碼。
智譜團隊定位了這個bug,也修復了它。
此外,他們還在主流開源推理框架SGLang的源代碼層面發現并修復了HiCache模塊的加載時序缺失問題,也就是read-before-ready。
修復方案通過Pull Request #22811提交給了SGLang社區,并被采納。
SGLang是一個開源項目,全稱可以理解為一種面向大語言模型的推理/服務框架。它不是一個大模型,也不是一家AI公司,而是一套讓大模型高效運行的基礎軟件。
智譜在使用SGLang這套開源推理框架時,發現了一個高并發緩存bug。
它沒有只在自己內部修,智譜還把修復代碼提交給SGLang這個開源項目。
項目維護者審核后接受并合并。于是,這個修復進入了公共版本,其他使用SGLang的開發者和公司之后也可以用到。
這什么意思呢?
如果千問的某個部署鏈路用了SGLang+HiCache,那么阿里也會因為智譜發現并修復了這個問題而受益。
還是剛才說的那句話,模型是沒有變的,但通過工程優化,讓它在用起來的時候更聰明了。
B
智譜這篇博客真正戳破的,是一個更深的層次。
Chatbot時代的便宜,很大程度上來自訓練成本低,一部分訓練集來自對頭部模型的蒸餾。
Agent時代,這招行不通了。
今年以來,Anthropic和OpenAI陸續關閉了蒸餾入口,明確禁止用其模型輸出訓練競爭模型。靠蒸餾取巧的路,越來越窄。
但中國AI公司的性價比敘事并沒有弱下去,市場反而在為這個故事加碼。
原因在于,性價比的定義已經變了。
Chatbot時代,平均上下文55K tokens,單次對話,低并發。
Agent時代,平均上下文70K+ tokens,長時間任務(8小時級),高并發、高前綴復用。
Chatbot時代,AI性價比的計量單位很簡單。同樣問一個問題,誰的模型更便宜,誰的回答更接近一線水平。
行業討論的是每百萬token多少錢、模型參數多大、榜單成績高不高。
Agent時代,沒人問這個,這套算法失效了。
用戶買的不再是一句回答。他買的是一個完整任務的完成結果。
一個Coding Agent要讀代碼、理解上下文、規劃步驟、調用工具、修改文件、跑測試、失敗重試。它消耗的token不是一次問答的增量,而是一個工作流的總賬。
OpenRouter作為全球最大的調用平臺,它每周處理的token總量,從2026年1月第一周的6.4萬億,漲到2月9日當周的13萬億,一個月翻了一倍。
OpenRouter官方的說法是,100K到1M長文本區間的增量調用需求,正是agent工作流的典型消耗場景。
大家使用AI的模式,已經從“對話型”切換到了“流程型”。因此,AI性價比的單位,也從“token單價”變成了“任務單價”。
這就導致,有些模型它的token便宜,但是由于模型性能不行,進行任務的過程中總是失敗,或者任務結果不達標,導致它的agent價格并不便宜。
比如說,一個8小時級別的Coding任務,中途只要亂碼一次,整個工作流可能都要重來。節省下來的token單價,補不回浪費的時間。
中國AI的性價比敘事正在升級。
以前講的是“輸出相同水準的答案,我更便宜”。現在講的是“同樣復雜的任務,我能用更低成本跑完”。
開源基礎設施也在成為中國AI的新護城河。
前文提到的SGLang就是如此。中國AI的工程能力,開始向上游社區輻射。
這件事的價值不只在于智譜修了一個bug,而在于中國AI公司正在把真實業務里的高并發、長上下文、agent調用問題,反向沉淀成公共基礎設施的能力。
就像前文提到的,當一個修復進入SGLang這樣的開源框架,它就不再只服務于智譜自己的模型。所有使用這套框架部署大模型的團隊,都有機會獲得更穩定的緩存、更低的推理成本和更好的agent體驗。
模型能力可以被追趕,價格可以被壓低,但基礎設施一旦進入開源生態,就會變成標準、接口和開發習慣。
誰更早把自己的工程經驗寫進這些底層系統,誰就更容易在下一輪AI應用爆發里占住位置。
C
回到資本市場。
AI大模型概念股全線走高,資本愿意給AI公司重新定價?市場買的到底是什么?
答案是,資本市場正在為“中國AI公司能用更低推理成本做出接近一線智能”的敘事買單。
還是以OpenRouter的數據來說。
中國頭部AI公司的token消耗份額,從2025年4月的5%快速攀升至2026年3月的32%。美國頭部模型份額,從58%大幅下滑至19%。
MiniMax、智譜、阿里的token使用量,在2026年2-3月較去年12月增長4-6倍。
除了token調用以外,中國AI還在形成一套,完全不同于海外巨頭的增長邏輯。
海外頭部模型在賣“能力溢價”。
模型能力越強,單次調用越貴,用戶為最強智能付費。Claude、GPT-5、Gemini都在往這個方向走。
中國AI在賣“工程”。
模型能力逼近一線模型,但是價格、延遲、調用門檻更低,更符合絕大多數高頻場景的需求。
摩根士丹利的報告里提到,中國模型的輸入價格約為0.3美元/百萬token,部分海外同類產品的價格在5美元左右。這中間是十幾倍的差距。
當AI從嘗鮮工具變成生產力工具,性價比會直接決定調用頻次。
模型便宜一點,企業就敢把更多客服、代碼、營銷、數據分析任務交給它。任務跑得越多,token消耗越大,平臺越能攤薄基礎設施成本。
![]()
我認為在這個環節,它是有可能會形成一個飛輪的。
第一圈,是用更低的API價格和更接近一線的能力,去吸引開發者和企業。
第二圈,更高的調用量會帶來更多真實場景,倒逼模型和推理系統繼續優化。
第三圈,也就是智譜這篇技術博客里講到的,用工程優化降低單位token和單位任務成本,讓廠商有能力繼續降價、漲量,或者在高價值場景里漲價。
第四圈,當token消耗成為AI時代的新流量,誰能以更低成本承載更多token,誰就更接近下一階段的平臺型公司。
如果只是模型降價,市場會擔心這是補貼和價格戰,越來越燒錢,總有人的錢包撐不住。
而且,價格戰撐不起高估值。
但如果降價背后是吞吐提升、緩存復用、異常率下降和調度效率提升,那么低價就不是犧牲利潤換增長,而是工程能力釋放出來的成本空間。
價格戰和這種工程優化的結果,雖然都是讓模型更便宜,而且在財報上看起來可能差不多。在估值模型里,差得很遠。
前者是補貼,市場會折價。后者是工程壁壘,市場會溢價。
最后可以落到一個判斷。
過去AI公司的估值看模型能力上限,看誰更接近AGI。當時市場在為“最強智能”付費,最強智能的定義越來越模糊,單次調用越來越貴。
現在agent時代,估值還要看成本下限。看誰能把智能穩定、便宜、大規模地交付出去。
對于追求最尖端的“智能”,這可能不是中國AI擅長的事情。
然而中國AI是最有可能把“智能”這兩個字,做成所有人和企業都用得起的基礎設施。
而市場只愿意為能說清楚自己邏輯的公司付錢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.