![]()
讓詞元更有質量
——推動詞元經濟高質量發展
編者按詞元(Token)正成為人工智能服務的核心計量、結算與統計單位。當前,詞元經濟呈現爆發式增長態勢,各類應用場景層出不窮,但“有流量、無質量”“有消耗、難評價”等問題日益凸顯:詞元消耗量難以反映AI服務真實價值、定價機制混亂、高質量供給缺乏有效激勵。
近日,國家數據局召開詞元經濟座談會,明確將詞元經濟納入工作體系,釋放出推動行業從規模擴張轉向高質量發展的強烈信號。中國經濟時報社等機構的專家學者和部分知名企業代表應邀參會發言。本期《智薈月刊》以“讓詞元更有質量——推動詞元經濟高質量發展”為主題,特別邀請四位與會專家,圍繞詞元經濟健康發展的核心議題展開深入研討,并從政策、技術、經濟與治理等維度帶來前沿思考與務實建議,以饗讀者。
![]()
習近平經濟思想研究中心研究三部主任、研究員毛科俊
核心觀點
我國詞元經濟健康發展面臨著計量定價、數據供給、技術自主、算電協同、安全防護等諸多關鍵關口。能否跨越這些關口,決定著我國詞元經濟能否實現量質齊升,也在一定程度上決定了我國智能經濟發展質量。
■毛科俊 梁永堅
詞元是大模型處理信息的最小信息單元。我國日均詞元調用量從2024年初的1000億,到2025年底的100萬億,再到今年3月突破140萬億,兩年間增長超千倍。圍繞詞元的生產、調用、分發與結算所衍生形成的新型經濟形態——詞元經濟,正在從理論探討進入產業實踐階段,反映了人工智能正從技術攻堅階段邁向價值兌現新階段。然而,和任何新生事物一樣,詞元經濟的健康發展絕非坦途。從當前實踐看,我國詞元經濟健康發展面臨著計量定價、數據供給、技術自主、算電協同、安全防護等諸多關鍵關口。能否跨越這些關口,決定著我國詞元經濟能否實現量質齊升,也在一定程度上決定了我國智能經濟發展質量。
一、詞元經濟健康發展需跨越計量定價關
詞元經濟之所以能夠成為現實,關鍵在于詞元本身具備可計量、可定價、可交易屬性,為原本難以度量的數據活化程度、智能服務規模提供了“度量衡”。詞元計量標準的統一性與定價機制的科學性,是整個詞元經濟賴以健康運行的制度基石。
從計量層面看,詞元缺乏統一的標準體系。詞元是分詞算法對輸入文本進行切分后形成的產物。不過,具體切分邏輯內嵌于模型架構之中,對外部參與者而言透明度不高。而同一語義內容在不同模型的切分邏輯下,可能對應數量相差數倍的詞元。這種技術上的“黑箱”特性,使得詞元這一本應客觀中立的計量單位,在現實中容易被掌握分詞規則制定權的平臺方影響,進而形成一種非對稱計量權力關系。
從定價層面看,詞元經濟面臨成本結構的非對稱性、量與質脫鉤的局面。詞元生產的成本結構呈現極端的“L型”特征:大模型預訓練階段成本巨大,而一旦模型訓練完成,生成額外詞元的邊際成本較低。隨著用戶持續增多,前期投入的巨額成本被不斷攤薄,理論上可趨近于零。與此同時,相同數量的詞元在不同場景中可能價值迥異:一份商業合約分析與一次日常閑聊所消耗的詞元可能相近,但前者產生的經濟價值可能是后者的成千上萬倍。然而,當前無論是按量計費、訂閱制還是混合式的大模型計價模式,本質都是基于詞元消耗數量,而對詞元生成質量陷入無差別定價,導致量質脫鉤問題突出。這種計價單位的“均質化”假設,可能誘發開發者為節約成本而刻意縮短詞元長度,而非著力提高回答質量,出現“劣幣驅逐良幣”的逆向淘汰。
從制度層面看,詞元經濟的治理能力滯后于市場實踐。詞元定價權高度集中于平臺尤其是頭部平臺,用戶與數據貢獻者缺乏議價能力。平臺單方面制定計價規則,即使不直接調整名義價格,也能通過微調分詞器設計、上下文緩存策略等關鍵技術參數而間接影響交易,形成傳統反壟斷工具難以有效識別的新型市場權力,容易導致收益分配的結構性失衡。
破解計量定價困局,需要加快標準建設、完善定價機制、加強監管治理協同發力。在標準建設層面,盡快明晰詞元統計口徑、核算方法與分詞規則的規范,建立分詞器備案與計量審計制度。在定價機制層面,引入響應精度、任務完成率、安全合規性等質量指標,進行復合評價,使詞元定價從單純的數量計費走向量質并重計費。在監管治理層面,明確平臺披露詞元計量規則、通知價格調整、留存計費日志等方面要求,并建立健全第三方核驗機制,切實保障用戶的知情權與在不同平臺間比價的能力。
二、詞元經濟健康發展需跨越數據供給關
數據為詞元的形成提供了最基本的原材料。詞元經濟健康發展離不開數據供給尤其是高質量數據供給。
從數據質量看,詞元經濟健康發展不止于數據規模擴大,更依賴于數據質量的提升。2025年,我國年度數據生產總量達52.3澤字節,同比增長27.3%,數據生產總量占全球約27.4%。然而,我國數據供給面臨數據規模擴張與高質量數據集不足的量質失衡困境。AI需要“精細糧”,相對線性增長的高質量數據卻難以匹配AI的超線性發展預期,比如高端制造、教育培訓、醫療診斷等垂直領域專業化、標準化、高可信度的數據依然稀缺,影響了專業場景下的大模型應用效果,制約著詞元經濟從通用服務領域擴大到專業賦能領域。
從數據流通看,“數據孤島”現象依然存在。公共數據開發利用仍需加力推進,公共數據開放共享和安全保護的平衡難度較大。大量高價值數據沉淀在政府部門、社會組織、企業等的內部系統中,因安全顧慮、利益博弈或技術問題而無法有效流通。
從數據權益分配機制看,貢獻與回報失衡的問題日益凸顯。用戶在消費詞元時所產生的交互數據,可反哺上游模型的優化,通過“消費即生產”形成正反饋循環。然而,在這一價值共創鏈條中,用戶貢獻如何確認、平臺能否無償吸收用戶在使用服務過程中形成的知識經驗,是有待厘清的涉及生產關系的深層次問題。
破解數據供給困局,需要從提升質量、促進流通、強化激勵等層面系統推進。在提升質量層面,深化行業高質量數據集建設行動,以場景需求為牽引,構建覆蓋高端制造、教育培訓、醫療診斷等高價值場景的“數據糧倉”。在促進流通層面,深化數據要素市場化配置改革,鼓勵公共部門、科研機構、頭部企業在安全前提下有序開放脫敏后的高價值數據,協同詞元服務開發者共建解決方案,持續探索“詞元交易”等新型交易模式。在強化激勵層面,探索建立用戶數據貢獻的回饋機制,使用戶能夠依據其產生的數據價值而獲得相應的合理報酬。
三、詞元經濟健康發展需跨越技術自主關
詞元的生產、調用等效能高度依賴芯片性能、算法效率與算力協同調度水平。如果核心技術受制于人,詞元經濟的發展容易陷入“數字技術依附”。技術自主可控是詞元經濟健康發展的關鍵。
從供應鏈安全看,硬件、軟件等層面存在不同程度的對外依賴。在硬件層面,高端GPU、EUV光刻機、高端EDA工具、光刻膠等產品的核心技術仍被國外少數大型廠商壟斷,國產替代尚需時日。在軟件層面,操作系統、IDE等同樣面臨對外依賴。在算法層面,核心算法仍被國外少數技術寡頭壟斷。
從基礎研究看,底層原創能力不足是制約技術自主可控的關鍵瓶頸。大模型架構、高效分詞算法、分布式訓練框架等原創性突破仍主要源于國外。雖然我國在應用層創新層面十分活躍,涌現出一批優秀的模型和應用場景,但在基礎理論、底層架構、算法范式等“根技術”領域,原創性累積不夠。這種“應用強、基礎弱”的創新結構,意味著我國詞元經濟的發展在相當程度上是在他國開辟的技術路線上進行優化和追趕,新技術方向開辟不足。而一旦技術范式發生重大變革,或國際科技合作環境惡化,我國詞元經濟的技術體系可能面臨被動局面。
從技術生態看,研發、應用等各環節之間的協同不足制約技術水平整體提升。一個健康的技術生態不僅需要單點突破,更需要多點爆發、協同演進。否則,單個環節的自主可控難以轉化為整個技術體系的自主可控。當前,我國在芯片設計、算法研發、應用開發等多個環節之間還存在協同不足的問題。比如,在軟硬件協同方面,我國國產大模型與國產算力芯片之間的適配度不高,而算法框架和芯片架構之間的不適配會直接拉低訓練效率、推高推理成本。
破解技術“卡脖子”困局,需要從補齊供應鏈短板、強化基礎研究、優化技術生態等方面加力。在供應鏈層面,加大對關鍵軟硬件研發等重點領域的扶持,著力突破瓶頸制約。在基礎研究層面,加強對基礎理論、底層架構等的前瞻性研究,鼓勵探索新技術范式,為下一代技術變革儲備原創性成果。在技術生態層面,推動算法、芯片、應用等環節協同演進,構建良性技術生態。
四、詞元經濟健康發展需跨越算電協同關
算力的盡頭是電力。詞元生產成本中電力支出比重較高。據測算,電力成本占數據中心運營成本的50%至70%,這幾乎是算力最大的剛性支出。算力與電力的深度協同,不僅關乎詞元經濟當下的發展速度,更關乎這一新形態可持續發展能力。
從跨區域調度看,算力需求與電力資源區域分布存在空間錯配問題。東部地區算力需求全國占比相對較高,但電力資源緊張;西部地區電力資源富集,但算力需求全國占比相對較低。而電網調度與算力調度實時交互機制尚不完善,跨區域綠電交易通道容量有限,跨區域算電系統協同調節效率仍然不高。
從匹配效率看,綠電供給間歇性特征與算力中心連續用電需求之間存在內在矛盾。風電、光伏等新能源發電具有明顯的間歇性和波動性。而算力中心的運行恰恰需要連續、穩定的電力供應,斷電或電壓波動可能導致訓練任務中斷、數據丟失甚至硬件損壞。儲能技術雖然可以在一定程度上平抑波動,但大規模儲能的成本仍然較高。
從技術支撐看,算電深度融合仍存在多項技術瓶頸。當前,超萬卡規模智算集群在面臨負載動態遷移時,存在效率低、時延高的問題,而電力系統要求快速響應。同時,綠電溯源標準化、智能化水平偏低,難以支撐綠色算力認證與交易。
破解算電協同難題,需要從加強規劃、完善機制、提升技術水平等方面著力。在規劃層面,加強算力布局與電力規劃統籌銜接,推動算力設施向西部綠電富集區集群布局,提高可再生能源利用水平,緩解算電分離狀況。在機制層面,加快跨區域電力市場建設,完善綠電交易機制。在技術層面,加快突破算電聯合調度等關鍵技術瓶頸,完善綠電溯源、消費核算等配套技術。
五、詞元經濟健康發展需跨越安全防護關
詞元生產、調用等過程涉及面廣,安全風險點多,高度依賴全鏈條的安全可控。一旦安全底線失守,不僅可能導致用戶隱私泄露、企業商業損失,更可能引發虛假信息蔓延、社會認知混亂乃至威脅意識形態安全。
在隱私泄露風險方面,在模型輸入、處理、輸出端均存在隱私泄露可能。在輸入端,用戶提示詞可能包含涉及隱私的敏感信息;在處理端,大模型可能“記憶”敏感信息,形成“記憶泄露”潛在風險;在輸出端,大模型可能在“無意”中泄露敏感信息。模型被攻擊、數據被捕獲也可能造成隱私泄露。
在數字鴻溝方面,詞元接入差距可能成為制約智能普惠的結構性因素。只有那些有能力負擔相應詞元消耗量的機構和個體,才有機會使用具備更強推理能力、能夠完成更復雜任務的模型,而無能力負擔的其他用戶只能使用僅能完成簡單任務的模型。這種詞元接入上的差距有可能演變為最終的收益鴻溝。
從認知錯位風險看,將詞元生產、調用等嵌入知識、文化傳播過程,從而將可能的風險延伸至價值觀等認知層面。大模型并非價值中立的語義機器,其訓練語料的構成、知識關聯的選擇、生成內容的傾向,都影響著使用者的認知框架。在這個意義上,詞元經濟能夠影響知識建構、文化表達、價值闡釋。如果模型預設的文化觀念和價值立場與主流認知存在偏差,用戶可能在潛移默化中受到影響。
構筑詞元經濟的安全防線,需要從加強隱私防護、降低使用門檻、維護認知安全等方面推進。在加強隱私防護方面,建立覆蓋數據采集、模型訓練、模型推理、內容輸出等全鏈條的防護體系,加強數據加密、隱私計算等技術手段的應用。在降低使用門檻方面,通過公共算力補貼、詞元套餐普惠化、農村地區服務下沉等方式,讓詞元經濟的發展成果惠及更廣泛的社會群體。在維護認知安全方面,加快建設高質量中文語料庫體系,把中華優秀傳統文化、社會主義核心價值觀等轉化為規范完整的高質量語義資源,增強我國詞元服務體系的文化自主性與價值判斷力。
(毛科俊系習近平經濟思想研究中心研究三部主任、研究員;梁永堅系習近平經濟思想研究中心助理研究員)
![]()
總 監 制丨王列軍車海剛
監 制丨陳 波 王 彧 楊玉洋
主 編丨毛晶慧 編 輯丨陳姝含
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.