![]()
出品 | 妙投APP
作者 | 張貝貝
編輯 | 丁萍
頭圖 | 視覺中國
大模型確實越來越便宜,但企業使用AI這件事,正在變得越來越貴。
這聽起來矛盾,卻是當下Token經濟最真實的一面。
以OpenAI公開定價為錨,2023年3月GPT-4發布時每百萬Token輸入30美元/輸出60美元,到2024年5月GPT-4o發布時降至5美元/15美元,再到今天,大量夠用級推理模型已經把價格打到每百萬Token幾毛美元甚至更低。
如果以早期GPT-4價格作為高位錨點,部分通用推理Token價格在三年內最高降幅達99%。
這也是過去兩年行業最流行的判斷:大模型會像帶寬一樣,越用越便宜。
但進入2026年,這個判斷只說對了一半。便宜的是部分模型Token價格,企業的AI運營總支出并未縮減。
原因在于,通用Token價格雖然在探底,企業卻正從簡單問答轉向Agent協作、代碼生成等復雜工作流,而這類任務的Token消耗量往往是簡單問答的十倍甚至百倍,導致算力總支出膨脹。
由此形成價格撕裂期:通用Token在探底,高價值能力在分層,企業AI支出在調用結構中膨脹。
但這種膨脹并非雨露均沾,而是沿著芯片、光模塊、云平臺直至應用等產業鏈環節,進行重新分配。在投資視角下,這種價格分裂的本質,是產業利潤的再分配。誰掌握稀缺資源、關鍵能力和高粘性場景,誰就更有機會在Token用量爆發中持續收費。
本文試圖回答一個更現實的問題:在這場價格撕裂中,AI產業鏈中誰在真正賺錢,誰被成本和價格戰擠壓?
誰在真正賺錢?
過去兩年,簡單問答、摘要、翻譯、分類等通用任務,在MoE架構、緩存、蒸餾和推理優化推動下,成本在逼近“水電價”。
這些任務有幾個共同特征:可預期、可緩存、可替代、對模型能力要求不極致。這類Token最容易被技術優化,也最容易被價格戰打穿。它們正在從“AI能力”變成“基礎設施能力”。所謂99%的降價紅利,主要發生在這一層。
但企業真正花錢越來越多的地方,并不在這里,更多集中在編程、Agent協作、長上下文推理、多模態處理等高消耗場景。這些場景正在從低價補貼池里被剝離出來,重新按“旗艦能力”計費。
以智譜為例,其GLM-5.1對準編程與Agent場景,輸入價格為每百萬Token 6-8元,輸出價格為24-28元;日常輕量任務則建議繼續用GLM-4.7,輸入價格為2-4元,輸出價格為8-16元。兩者價差約3倍。
這是模型廠商通過模型檔位分層重新劃分了價格池。它們正在把簡單問答、翻譯、摘要這類任務當作基礎流量,低價獲客;同時開始向編程、Agent、復雜推理、多模態這類場景要利潤。
與此同時,底層的物理成本并未跟隨通用Token的降價變化。HBM價格高位運行、數據中心電力與液冷成本高企,這些硬約束迫使阿里、騰訊、百度等云廠商在3月罕見上調了AI算力服務價格。
即,當可壓縮場景的Token成本不斷探底,不可壓縮場景的算力成本依然堅挺,這正是企業算力支出失控的底層推手之一。
但更大的問題,不是單價,是用量膨脹。
過去企業用大模型,大多是一問一答,單次調用成本相對可控。
現在更多付費場景變成了Agent協作、長上下文記憶、復雜邏輯推理、代碼生成和多模態處理等。此情況下,即使Token單價下降,但單輪單次任務消耗的Token數量可能放大十倍、幾十倍的情況下,企業AI運營總成本反而可能上漲。
這是為什么一些企業在大規模開放AI編程工具后,很快遇到預算失控問題。
如Uber在為5000名工程師開放AI編程工具后,僅4個月便燒光了2026全年預算;國內米哈游技術團隊負責人鄭銀河在2026年5月阿里云峰會上公開披露,團隊一位工程師測試多Agent協作時,因未設熔斷、數十個Agent進入循環調用,費用飆升,13小時內收到200萬元Token賬單。
正是這三層結構的疊加,導致了“99%降價”與“企業AI更貴”的共存。
而企業多花出去的錢,并沒有消失,它變成了產業鏈上某些環節的收入和利潤。
因為通用Token越便宜,越容易刺激企業把AI推向更復雜、更高頻、更重算力的場景;而這些新增需求,最終會流向芯片、光模塊、云平臺、高價值模型API、應用場景和基礎設施等。
即,真正賺錢的,不是賣便宜Token的人,是能從Token用量爆發里持續收費的人。這是理解當下AI產業鏈分化的關鍵。
接下來,對產業鏈上中下游分別展開討論。
![]()
上游要卡住瓶頸
Token經濟下,AI產業鏈的上游由計算芯片(GPU/NPU/LPU,加速器)、高速存儲(HBM)、高速互聯(含光模塊)、智算中心基礎設施(供電、冷卻)等構成,這些環節決定Token生成的速度、穩定性和單位成本。
但上游并不是一塊鐵板。真正掌握定價權的,是那些卡住了物理瓶頸的環節。
首先是GPU和HBM。
隨著Agent與多模態處理的發展,瓶頸不再局限于算力,更在于顯存容量、帶寬和數據搬運能力。HBM產能周期長、擴產慢(一般需24–36個月),又被大客戶長協鎖定,供給剛性直接轉化為利潤護城河。
海外三大存儲巨頭(SK海力士、三星和美光)憑借HBM,將DRAM綜合毛利率拉回50%+,其中SK海力士2025年Q4的毛利率已達69%。
更關鍵的是,稀缺的HBM帶寬通常不單獨出售,而是被封裝進GPU加速卡、整機和高速互聯系統中,最終以整套計算系統的出售溢價體現出來。因此,最厚的利潤池并非單一的HBM或GPU,而是“GPU+HBM+獨家互聯技術”打包在一起的套餐。
不過,國內破局之路尚處起步,長鑫存儲作為唯一DRAM IDM(設計+制造一體化),正以低毛利換良率爬坡,攻堅HBM供給瓶頸;摩爾線程、沐曦、壁仞、燧原科技等GPU廠商則試圖通過自研架構與開放互聯標準(如OISA),在英偉達體系外構建可用的國產算力底座。
從估值層面看,資本市場對于HBM賽道的追捧主要來自于供給緊張。只不過,據長城證券測算,2025-2026年全球HBM供需比分別為45%和27%,缺口確實存在,但有所收窄。這意味著估值錨正在從"有沒有貨"移向"高端占比與毛利率能不能守得住"。未來一旦HBM產能擴張速度超過需求增速,估值邏輯將會變化,屆時需注意下調風險。
至于GPU賽道,AI算力需求仍在情況下,資本市場仍會活躍。只不過,已經過了“講故事”的階段,轉向“業績檢驗期”。如數據中心收入質量、下一代架構的出貨鎖單、以及單位Token成本下降是否會壓低"按集群付費"的天花線等都會被檢驗。未來任何關于“增速邊際放緩”的信號,可能都會導致估值回調。
![]()
其次是光模塊。
AI集群不是簡單堆砌GPU,單服務器內、跨服務器節點間、乃至跨數據中心的互聯能力,共同決定了算力能不能真正跑起來。800G向1.6T光模塊升級,本質上是Token海量爆發后對更高帶寬、更低延遲的剛性需求,這是該賽道走強的重要驅動因素。
所以,這一環節依靠“高端規格迭代+客戶認證壁壘”構筑護城河,頭部廠商如中際旭創、新易盛的毛利率已從早年30%左右攀升至40%以上。
但要注意的是,中際旭創、新易盛等企業的前五大客戶收入貢獻均超7成,客戶集中風險比較高,任何一個大客戶的訂單波動都會影響全年業績。且這種情況下,光模塊企業的議價能力較弱。未來若1.6T的放量速度不及預期,或買方議價讓平均售價階梯下行速度快于成本降幅,利潤增速可能會面臨拐點。
而中際旭創、新易盛分別為102倍何75倍的滾動市盈率,近5年歷史分位數均在94%以上,意味著市場已把"未來2-3年高增+份額不丟"提前付款,安全邊際薄。
再就是電力與散熱。當單卡功耗繼續上升,傳統風冷接近物理極限,液冷從可選項變成剛需。而高密度機柜的穩定運行,則依賴于園區級供電容量的冗余與效率。這一環節是典型的“資本開支驅動+交付能力壁壘”。
英維克憑借全棧液冷技術綁定頭部算力集群,資本市場上確實享有高溢價。但英維克當下196倍的滾動市盈率,近5年歷史分位數94%,處于估值高位。這意味著市場已經把2026年全年的液冷放量充分定價,甚至透支了部分2027年的預期。未來一旦招標價松動或對手報價拉低毛利,估值回調風險會比較大。
而特銳德是全球最大的預制艙式變電站制造商,近期推出的”算電島”方案,通過高壓直入與800V直流供電,可將Token的用電成本降低約30%,這一敘事受到市場較多關注。但估值能否從電力設備向AI基礎設施遷移,取決于下半年算電島的訂單和交付數據。
位于產業鏈末端的服務器系統集成與組裝,便是典型的“量大、利薄”賽道。
以國內AI服務器出貨龍頭浪潮信息為例,其主業本質是“品牌整機+JDM聯合設計制造”平臺。一臺AI服務器的物料成本里,大部分被上游GPU、存儲芯片鎖定,下游又面臨云廠商的強勢議價,導致其毛利率較低,2025年僅5%左右。它更像是“高級搬運工”,在上下游的夾縫中賺取辛苦錢。
所以,上游各賽道表面看都在漲,底層邏輯卻不同:
(1)HBM/GPU:不可替代性來自物理硬約束(產能周期、技術壁壘、生態鎖定),溢價有"供給剛性"托底,但需警惕產能擴張后的供需逆轉。
(2)光模塊/液冷:不可替代性更多建立在“1.6T升級、云廠商資本開支擴張”,即需求持續超預期的假設上。彈性最大,但一旦預期落空,跌幅也最猛。客戶集中和價格下降是始終懸在頭上的風險。
(3)電力、液冷:有剛需的安全邊際(電網準入、市占率、交付能力),也有AI增量需求的彈性預期。AI敘事順利時,它跟著漲;敘事出問題時,它也會跌,但跌幅相對可控。
(4)服務器組裝:不具備不可替代性,沒有定價權,毛利率常年徘徊在個位數。出貨量增長時跟隨行業Beta上漲,但一旦下游砍單或庫存調整,估值會迅速壓縮。市場給它的更多是“低毛利高周轉的周期加工廠”估值。
上游投資的本質,是判斷"不可替代性"的成色:物理約束越硬,安全邊際越高;敘事依賴越強,波動越大;什么都沒有,就只能賺辛苦錢。
![]()
(圖表來源:妙投制作)
中游要鎖定生態
上游劃定了算力的物理成本和稀缺性,但真正把算力變成可售賣、可計費、可被普通開發者調用的“服務”的,是中游的云廠商、算力租賃平臺、大模型供應商以及運營商。(云廠商、算力租賃平臺雖涉足上游基礎設施建設,但其核心利潤來源于中游的平臺調度與生態鎖定,故歸入中游)
這一環節的核心邏輯通過分層定價實現利潤最大化,不再是“越便宜越好”。
云廠商的做法最典型。阿里、騰訊、百度等云廠商下調通用模型價格,并不意味著愿意長期虧錢。對云廠商來說,通用模型只是入口,真正的利潤池在后面:云數據庫、云存儲、云專線、安全、彈性算力、專屬推理實例和行業解決方案。
因此,當云廠商上調部分AI算力服務價格時,漲的往往不是普通聊天Token,而是更接近企業生產環境的高消耗服務:專屬集群、彈性算力資源、高可用保障和企業級部署能力等。
當企業被Agent的循環調用綁定在阿里或騰訊等云生態時,平臺收取的費用由“算力費"轉為”企業生產流水的過路費"。這種估值錨是"遷移成本"。
這正是分層定價的體現:用低價的通用模型搶占入口,再對真正支撐企業級業務(如運行Agent、長上下文推理)的高階服務收取溢價,從而實現利潤最大化。
從估值層面看,中國AI科技股如阿里巴巴、騰訊控股估值均在15倍左右,美國同類(微軟/亞馬遜/谷歌)約27倍,差額較大。這是因為市場仍用“傳統互聯網”而非“AI云”框架定價。未來企業被Agent綁定的“遷移成本”能支撐更高的利潤率中樞時,有望驅動市場重新定價。
模型廠商也在轉向分層定價。輕量模型負責走量,承接可蒸餾、可緩存、可替代的通用流量;旗艦模型負責守價,鎖定編程、長上下文、復雜推理和Agent協作等高價值場景。智譜GLM-4.7與GLM-5.1之間約3倍的價差,就是這種分層定價的縮影。
走生態路線的廠商,如阿里通義、字節豆包更傾向于把模型能力嵌入云和平臺生態,通用檔壓價,后續靠Agent開發平臺、企業服務和云資源消費變現。
走高端能力路線的廠商,則更看重旗艦模型在高價值場景中的付費能力。它們未必要卷最低價,但要證明自己的不可替代性。
從估值層面看,市場交易的是“AGI敘事”而非當期業務。如智譜頂著“全球通用大模型第一股”光環,市銷率高達1000倍,脫離基本面。一旦業績兌現不及預期(算力瓶頸、開源競爭、企業采用放緩),面臨大幅回調風險。(注:①6月18日收盤,市值約9300億港元,2025年營收7億;②因為虧損,所以用市銷率估值)
運營商的Token套餐則是另一種打法。中國移動、中國電信、中國聯通把AI算力包裝成類似“流量包”的產品,優勢在于用戶觸達和計費體系。但這類模式能否真正賺錢,還要看其數據中心、電力和上游模型成本,能否被規模攤薄。只有智算收入占比持續提升、生態鎖定能力被驗證,估值才會有修復空間。
至于算力租賃商,雖然需求景氣度高,但商業模式缺乏技術壁壘,本質是“買卡轉租賺差價”,一旦供需逆轉利潤即刻崩塌。就像通用Token價格降了后,部分客戶可能因為用云廠商的服務更省事、更便宜而不再續租。
如智譜2025年策略調整就是例證,從"租賃設備"為主轉向算力服務商/云平臺購買計算服務為主。從此維度看,數據港160倍的滾動市盈率不算低,安全墊較弱。
總體看,中游的格局已經比較清楚:有云生態、有模型能力、有企業服務能力的玩家,可以把通用Token當入口;缺乏技術壁壘的算力租賃,則會淪為被擠壓的夾層 。
![]()
(圖表來源:妙投制作)
下游要嵌入場景
通用Token降價后,下游并沒有普遍迎來躺贏,而是出現了劇烈的分化。
簡單AI寫作、換臉工具、聊天等無壁壘的應用,競爭會越來越激烈。真正能吃到紅利的,是有場景壁壘、用戶粘性和付費閉環的公司。
這些場景包括AI辦公、AI編程、法律合同審查、醫療報告生成、工業故障排查、金融信息服務等。它們有一個共同點:用戶原本就有明確需求,AI的作用是在已有工作流里提高效率。
金山辦公是典型代表。WPS原本就有用戶、文檔、訂閱和企業客戶,AI能力嵌入后,可以提升付費轉化、企業客單價和產品粘性。2025年WPS AI國內月活突破8013萬,同比暴漲307%,日均Token調用量超2000億,同比增長超12倍。公司同期營收59.29億元,毛利率高達85.95%。
要知道,金山辦公的高毛利并非模型帶來的,而是文檔場景的護城河帶來的。AI只是提高ARPU和粘性的增強器。沒有場景壁壘的AI應用,反而容易淪為上游硬件和模型API的“打工仔”。
進一步從估值角度看,金山辦公當下27倍左右的滾動市盈率,對比未來2年機構預期的歸母凈利潤年復合增速11%左右看,通用Token降價利好已在估值中體現。未來隨著付費率與留存繼續提升,估值有望進一步走強。但一旦這兩個數據拐頭,溢價也會收窄。
此外,下游還有另一個變量:Token治理能力。
Agent工作流的復雜性,使企業賬單不可預期。企業需要搞清楚哪個Agent最燒錢,哪個Prompt(任務說明書)導致上下文膨脹,哪個用戶/功能/工作流在消耗Token,才能做調整和降本。
這使AI FinOps成為一個新機會。
所謂AI FinOps,指的是圍繞模型調用、Token消耗、模型路由、緩存、上下文壓縮、預算上限和熔斷機制建立的一套成本治理能力。它解決的不是“要不要用AI”,而是“怎么大規模用AI而不被賬單反噬”。
如,迅策科技正將業務延伸至LLM Observability,即大模型可觀測性,用于跟蹤模型調用、Token消耗和系統表現,相關業務推進值得持續觀察。
從估值角度看,但該賽道目前處于極早期,市場尚未形成統一的估值錨。這類公司更可能參考SaaS的PS估值(5-10倍),后續可跟蹤再驗證。
所以下游真正的分水嶺是“有沒有場景壁壘”和“有沒有Token治理能力”。有場景吃紅利,沒壁壘的公司被同質化競爭卷死;有Token治理能力的控住成本,沒治理能力的公司則可能會被Agent調用量反噬。
寫在最后
綜上,Token經濟下,高估值的錨不僅是模型能力的邊際提升,更是"AI算力通脹"下的物理瓶頸。
這輪變化的起點,是推理算力消耗的快速膨脹。Agent循環、長上下文、多模態任務帶來的算力消耗大幅度增長時,市場的估值錨從"軟件訂閱邏輯"切換到了"硬件消耗邏輯"。
此背景下,產業鏈價值開始重構。真正的利潤,將向具備稀缺性、定價權和現金流兌現能力的環節聚集。
短期看,當前確定性最高的產業機會集中在上游供給側的硬約束資產,包括HBM、GPU、光模塊、電力、液冷和數據中心基礎設施等,這些資源決定了AI能否大規模運行。
中期看,彈性來自云廠商和模型廠商的分層定價能力,尤其是能否把通用Token調用量轉化為企業級服務收入。通用模型低價獲客,高價值能力分層變現,將成為中游玩家能否穿越價格戰的關鍵。
長期看,最大價值仍會回到下游場景,只有真正嵌入工作流、掌握用戶和數據閉環的AI應用,才能吃到產業成熟后的利潤紅利。此外,擁有Token FinOps,即算力成本治理能力的企業,也值得持續關注,因為企業需要知道AI的錢花到哪里去了,才好調整控本。
因此,未來AI產業的投資邏輯,不再是單純比拼模型單價,更多是比誰能在價格分裂中找到自身不可替代的價值,從而保有定價權和利潤份額。
免責聲明:本文內容僅供參照,文內信息或所表達的意見不構成任何投資建議,請讀者謹慎作出投資決策。
![]()
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4868577.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.