本報訊最近,AI大模型用戶發(fā)現(xiàn)了一個有趣的現(xiàn)象:用中文與AI對話,成本似乎比英文更高。這種現(xiàn)象被戲稱為"中文稅"。究竟是怎么回事?
![]()
一"稅"驚人:中文真的更貴
據(jù)最新數(shù)據(jù)顯示,在Claude和GPT等主流大模型中,中文的token消耗量普遍高于英文。某些場景下,中文版本的token數(shù)量比英文版多出64%,這意味著用戶需要支付更多的費用才能完成同樣的任務。
![]()
但有意思的是,國產(chǎn)大模型的情況恰好相反。在Qwen和DeepSeek等模型中,中文反而比英文更省錢,token消耗量僅為英文的65%左右。
價格差異從何而來
這背后的原因在于大模型的"Tokenizer"(分詞器)技術(shù)。簡單來說,AI模型無法直接理解文字,需要通過分詞器將文字切割成標準化的小塊(token)來處理。每個token都是一筆費用。
![]()
英文分詞相對直觀,一個單詞通常算一個token。但中文面臨不同的處理邏輯:一些國際主流模型采用BPE算法,根據(jù)訓練語料頻率合并字符,而早期訓練數(shù)據(jù)以英文為主,導致中文字符被過度拆解;相比之下,國產(chǎn)模型從一開始就將常用漢字和詞組納入整詞編碼,效率更高。
古文更省?別高興太早
還有一個有趣的現(xiàn)象:文言文比現(xiàn)代漢語更省token。但記者發(fā)現(xiàn),這其實是把"編碼成本"的節(jié)約轉(zhuǎn)嫁給了"推理成本"——字少了,但AI需要消耗更多算力來理解。
![]()
歷史巧合:部首的秘密
更深層的研究發(fā)現(xiàn),早期模型將漢字拆成多個token時,模型反而能通過UTF-8編碼的字節(jié)序列學到漢字部首信息,提升語義理解能力。而當新一代模型將漢字編碼為整字token后,雖然成本降低了,卻也失去了這條意外的語義通道。
![]()
歷史回響:林語堂與中文打字機
這個現(xiàn)象在歷史上早有先例。1947年,著名作家林語堂發(fā)明"明快打字機",試圖將漢字高效嵌入西方打字機體系。他將漢字按部首拆解,用組合鍵定位字根,每分鐘可打40至50字。這種設計雖然商業(yè)上失敗了,卻為現(xiàn)代中文輸入法奠定了基礎。
![]()
正如歷史學家所言:"中文始終面對一個問題——如何接入一套為西方語言設計的基礎設施。"從打字機到大模型,中文與技術(shù)的融合之路,始終充滿了意想不到的巧合與代價。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.