網易首頁 > 網易號 > 正文申請入駐

智薈月刊 | 加快構建詞元質量評價標準體系

2026-06-04 08:10:25　來源: 中國經濟時報

北京舉報

分享至

讓詞元更有質量

——推動詞元經濟高質量發展

編者按詞元（Token）正成為人工智能服務的核心計量、結算與統計單位。當前，詞元經濟呈現爆發式增長態勢，各類應用場景層出不窮，但“有流量、無質量”“有消耗、難評價”等問題日益凸顯：詞元消耗量難以反映AI服務真實價值、定價機制混亂、高質量供給缺乏有效激勵。

近日，國家數據局召開詞元經濟座談會，明確將詞元經濟納入工作體系，釋放出推動行業從規模擴張轉向高質量發展的強烈信號。中國經濟時報社等機構的專家學者和部分知名企業代表應邀參會發言。本期《智薈月刊》以“讓詞元更有質量——推動詞元經濟高質量發展”為主題，特別邀請四位與會專家，圍繞詞元經濟健康發展的核心議題展開深入研討，并從政策、技術、經濟與治理等維度帶來前沿思考與務實建議，以饗讀者。

中國經濟時報陳波

核心觀點

當前詞元消耗量僅能反映AI服務的“流量”，無法衡量其“質量”與“價值”。詞元產生于“用戶—智能體—模型”的動態服務過程，其質量本質就是AI服務質量，且高度依賴智能體的任務規劃與工具調用能力。因此，評價體系必須摒棄僅憑通用測試得分論英雄的思維，回歸對輸入、處理、輸出、用戶體驗全過程的動態評價。應以“能力、底線、價值”三維框架為基礎，按“分類、分級、動態”原則推進，深度融合客觀標準與主觀體驗，并針對不同應用場景量體裁衣。

■陳波

5月22日，國家數據局召開詞元經濟座談會，明確將詞元經濟納入工作體系，并指出詞元正成為人工智能（AI）服務的計量、結算與統計單位。數日后，市場監管總局與國家發展改革委聯合印發《人工智能計量體系和能力建設指引（2026版）》（以下簡稱《指引》），其核心目標直指讓AI“可測量、可比較、可追溯”。

這兩則信息傳遞出明確信號，推動詞元經濟從初始的規模擴張轉向有序的高質量發展，必須首先解決度量問題。這里必須認清一個根本邏輯，即詞元產生于AI服務的動態過程，其質量本質就是AI服務的質量。這一過程并非簡單的“用戶—模型”直接交互，而是“用戶—智能體—模型”的復雜過程。智能體作為理解和執行用戶意圖的代理，負責規劃任務、調用工具、管理上下文記憶，并調度一個或多個模型，其自身的設計與性能直接影響著詞元消耗的效率和最終輸出結果的質量。

因此，建立詞元質量評價標準體系，并非等同于對靜態大模型的單一評價，也不同于對某個物體的檢測，其核心是對AI服務這一復雜動態過程的評價。用戶滿意可能不是唯一標準，而只是一個結果。基于價值的定價策略也并非由用戶滿意一個維度所決定，還需要其他因素支撐。這決定了該體系必須是一個融合客觀標準與主觀體驗的復雜系統。構建這樣一套科學、動態、場景化的標準體系，已從行業發展需要上升為緊迫的政策需求。這不僅是一套技術規范，還是關乎產業競爭秩序、價值公平分配與社會信任構建的制度性基礎設施，是破解智能經濟定價之謎、激活數據要素、實現健康可持續發展的關鍵。

為詞元經濟確定價值“度量衡”

當前，我們面臨AI服務的“度量危機”。詞元消耗量只能反映AI服務的流量，卻無法衡量其質量與價值。為何使用相同模型，效果與評價天差地別？為何耗費巨量詞元，產出卻不盡如人意？收費與免費，差異究竟在于AI價值還是企業策略？這些困惑，根源在于我們缺乏客觀、可信的標準來度量AI服務的內在品質。

這場危機源于AI服務與生俱來的“價值情境依賴性”。我們已經有了詞元這個計量單位，但這不等同于解決了AI服務質量評價的問題，并且因智能體的介入而更加復雜。智能體在服務過程中可能自主進行多輪思考、調用外部工具、從記憶庫中檢索信息，這些動作都會產生大量的中間過程詞元，這些詞元并不直接面向用戶，但最終結果的質量至關重要。因此，詞元消耗量與實際終端價值之間的關聯，不僅取決于最終調用的模型，更取決于智能體如何使用這些詞元以實現目標。同時，相同成本產出的詞元，用于日常閑聊與用于輔助新藥研發，所創造的價值天差地別。這也就是當前詞元價值度量衡面臨的三重困境。

困境一：市場失靈與定價之謎。價格與價值脫鉤，高價值專業服務的提供者無法獲得合理回報，抑制了其深耕垂直領域的動力；用戶也無法為關鍵產出支付公允價格。市場在流量計價的粗放模式下，陷入低水平內卷，資源嚴重錯配。

困境二：統計失靈與決策失準。國民經濟核算體系無法區分詞元消耗中的高價值創造與低價值消耗，大量由AI帶來的生產率躍升和消費者福利改善成為統計“黑箱”，致使宏觀決策缺乏精準的數據支撐。

困境三：創新生態激勵扭曲。在質量信號缺失的“黑箱”中，投入巨大成本研發高質量數據和高可靠模型的貢獻者，其價值無法被市場識別和定價，從而無法準確參與利益分享。這嚴重挫傷了高質量生產要素的供給積極性，長遠將損害創新生態的根基。

因此，加快建立詞元質量評價標準體系，首要目標就是建立一套清晰、可信的價值度量衡，它通過提供客觀的質量信號，引導資本、算力、數據、人才等資源自動流向能創造更高社會經濟價值的領域，從根本上矯正上述失靈。

詞元的質量評價體系，其深遠意義遠不止于給模型排名。

一是可作為公共信息產品，它是社會信任基石。強制性的安全分級如同“安全認證”，性能分級如同“能效標識”，能極大地降低社會甄別成本，掃清AI大規模普及的信任障礙。這個體系的核心，是建立一套能夠被廣泛認可的客觀標準框架，為市場提供一個評價基準，而最終的使用體驗和主觀評判權仍交還給用戶自身。

二是可作為資源要素指引，它是技術向善標準。通過為教育、醫療、養老等民生領域設定更高評價標準，可以引導產業界的研發與創新活動優先服務于國家戰略與公共利益。

三是可作為收益分享基礎，為要素市場提供動力。這是其最核心的經濟功能，科學分級為優質優價提供了依據，使高價值模型能獲得合理溢價，從而為“保底授權費+價值分成”等定價模式奠定基礎，激活數據要素市場。

四是可與計量審計協同，串聯成AI產業價值閉環。質量評價的落地，尤其與分成模式結合，高度依賴于一套可信的計量與審計基礎設施。質量評價體系與《指引》規劃的AI計量能力建設，是一體兩面、必須協同推進的同一系統工程。公認的質量標簽加上可信的計量數據，才能讓價值正常循環。

把場景因素納入構建質量體系

構建詞元質量評價體系，首先必須徹底摒棄僅憑通用測試得分論英雄的思維。一個學術評測冠軍模型，可能在產業場景中平平無奇，或者完全是大材小用，甚至因安全問題無法實用。對詞元質量的評價，必須回歸到對AI服務全過程，即輸入—處理—輸出—用戶體驗整個過程的動態評價。詞元的評價體系不是唯一標準的分數榜，而是一套多維、動態、與場景深度耦合的體系，其設計哲學是將可標準化的客觀部分建立起來，同時為不可標準化的主觀體驗留出評估空間和用戶選擇權。

1.用“能力、底線、價值”三個維度構建評價框架

第一個維度是能力維度，衡量基礎性能，評價模型和智能體的能力。對于模型的能力包括在通用知識和邏輯推理上的廣度；在代碼、法律、醫療等垂直領域的深度與精度；抵抗幻覺的可靠性；以及單位能耗的效率。這是相對客觀的、可復現測量的硬指標。對于智能體則主要是調度與組合能力，包括任務規劃與拆解準確率、工具調用精準度與效率、上下文管理能力和多模型協同能力，等等。

第二個維度是底線維度，衡量安全與合規程度，類似模型和智能體應用的“一票否決”項，是信任的基石。標準必須系統評估，針對模型及智能體應用場景，對內容安全、隱私與數據安全、公平性與偏見，以及關鍵決策的可解釋性與可控性進行評價。這部分工作可以參考已有的信息系統安全測評方面的相關經驗。這部分評價也以客觀標準為主。

第三個維度是價值維度，對場景適配性進行規范。這是最具挑戰性的，也是最關鍵的維度，直接體現了AI服務的動態過程與用戶體驗。這個維度完全由場景定義，必須量體裁衣，也就融合了客觀效果與主觀感受。例如：

在創意生成場景中，例如生成文案和視覺產品，則評價輸出的新穎性、審美價值時，必須結合行業專家評審與市場反饋數據。

在知識工作場景中，例如與決策支持相關的行業研究和投資分析，則評價輸出的準確性、邏輯嚴謹性、信息溯源性等客觀指標，同時也需考慮呈現方式對用戶理解的支持度。

在工具增強場景中，例如輔助編程和數據分析，則評價結果正確性、執行效率、符合行業規范等客觀標準。

在交互與陪伴場景中，例如客戶服務和教育輔助，則評價輸出的流暢度、共情能力、長期一致性，這部分評價則需要引入大量用戶主觀體驗調研。

2.以“分類，分級，動態”方式逐漸形成標準體系

首先，要對場景進行分類。可以由制定機構聯合產業界，制定覆蓋主要領域的《智能服務核心應用場景分類指南》，建立評價的標準坐標。這是對AI服務多樣性的客觀刻畫。

其次，在場景中進行分級。對每個重要細分場景，如智能客服中的金融領域服務，成立專門工作組，從三維框架中遴選核心指標，為客觀化的指標，如響應準確率、代碼通過率，設定明確的分級閾值；對主觀性的指標，設計科學的抽樣調查與評價方法，如用戶滿意度，將其轉化為可比較的分級數據。最終形成一類一策的《質量分級評價規范》，使模型獲得一系列場景化的能力證書，而非一個籠統分數。

再次，把動態進化當作工作常態。通過年檢加新版本檢測、吸納市場反饋與監管沙盒相結合等方式，尤其是要建立機制化的用戶主觀評價反饋渠道，把標準體系的動態優化作為工作常態，持續改進客觀標準和公布主觀評價結果。

多方協同實施敏捷治理

標準的構建和完善需要國家、行業、企業和社會的協同共治，可以按“急用先行、滾動迭代”的方式敏捷實施。在此需要明確界定各方在構建評價體系中的角色。

國家與監管部門是規則的制定者與秩序的維護者，負責明確安全底線、搭建公共平臺、制定路線圖、維護執法公平，核心任務之一是牽頭建立基礎的客觀評價標準。

行業組織與專業機構是垂直領域標準制定者和裁判員，負責研制本領域專業化的性能與適用性標準，提供公正評測服務，他們將行業的共性客觀要求和典型主觀體驗轉化為具體評估細則。

企業也就是模型與平臺方，既是創新主力也是質量第一責任人，必須履行全面真實的質量信息披露義務，不僅要滿足客觀標準，還需建立用戶反饋閉環。作為智能體的提供方或運營平臺，企業不僅要對底層模型負責，更要對智能體的整體行為、安全性和效率負責，需披露智能體的決策邏輯框架、安全邊界和已知局限。

用戶、應用開發者與社會公眾是最終的使用者也是監督員，要確保他們能獲得真實完整的信息，能自主通過用腳投票、社區評議和調研參與的方式，形成外部制衡與反饋網絡，使評價體系保持鮮活，最終通過付費表達自己真實的購買意愿。

構建體系的過程是一項系統工程，需要分階段推進。

第一階段是筑基與試點階段。政府要快速出臺安全合規分級強制國標，確定場景試點目錄，探索建立包含基礎性能和初步用戶體驗指標的評價規范，要邀請頭部企業深度參與、率先改造、接受評測。目標是快速產出可信的可行方案，建立公信力。

第二階段是擴展與推廣階段。政府應上線國家評價公共平臺，展示初步的客觀分級和主觀評價結果，發布場景建設路線圖。政府要引導各行各業主動牽頭制定標準，改進完善評價和計量工具。企業為獲取更高評級和市場口碑，必須認真參與這場質量評比賽，并探索數據、算法等分成模式。目標是培育可良性循環的市場生態。

第三階段是鞏固與完善階段。政府設立常設標準化技術委員會，建立快速修訂機制，管理好監管沙盒內的標準孵化。企業、社區、學界持續提供反饋，特別是來自真實用戶的主觀體驗數據，將成為標準迭代的關鍵輸入。前沿企業在沙盒內承擔探索責任。目標是實現標準與技術的同步進化，治理模式轉變為多方參與的標準共同體。

讓AI服務可度量、可信賴

建立詞元質量評價標準體系，這是一項涉及技術、經濟與治理的復雜工程。我們必須深刻認識到，評價詞元質量，就是評價AI服務本身。在智能體日益成為服務主導形態的趨勢下，這一評價必須穿透智能體這一層。一個健康的評價體系，必須能同時容納可驗證的客觀標準和多元化的主觀體驗——前者建立秩序與信任的基石，后者賦予市場活力與創新的源泉。唯有政府、行業、企業與社會四方凝聚智慧，以清晰的權責、敏捷的節奏、緊密的協同，才能將這套體系從藍圖變為現實，使詞元經濟實現高質量發展，推動人工智能服務邁向價值驅動的新階段，釋放人工智能賦能千行百業、增進社會福祉的巨大潛能。

（作者單位：中國經濟時報社）

總監制丨王列軍車海剛

監制丨陳波王彧楊玉洋

主編丨毛晶慧編輯丨陳姝含

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

智薈月刊 | 加快構建詞元質量評價標準體系