網易首頁 > 網易號 > 正文申請入駐

CPU跑生成式AI不再是妥協方案

2026-06-14 02:12:35　來源: Ping值焦慮

北京舉報

分享至

一個反直覺的判斷正在被技術驗證：當生成式AI模型需要真正落地到數十億設備時，那個“不夠酷”的CPU可能是最優解，而不是那些噱頭十足的專用加速器。

過去五年，行業默認的敘事是CPU推理只是個兜底選項。要跑大模型，要跑圖像和音頻生成，你得靠GPU、NPU或者各種定制化AI芯片。這種慣性思維背后有一個真實的工程取舍：CPU的延遲太高了，尤其是在處理Transformer里密集的矩陣運算時，等待時間根本滿足不了生成式AI的交互要求。但問題在于，把賭注全壓在專用加速器上會立刻撞上另一堵墻——碎片化。不同芯片的驅動、算子庫、內存帶寬特性天差地別。為一個NPU高度優化的模型，換到另一家手機芯片上性能可能崩塌。

Arm的方案直接針對這個取舍本身。Scalable Matrix Extension 2（SME2）的做法不是在CPU旁邊掛一個協處理器，而是把一個專用的矩陣計算單元直接集成進了CPU集群內部。這意味著，CPU核心自己就能在需要時變身為一個高性能的矩陣乘法加速器。原文給出的數據是，針對生成式AI中矩陣運算密集的工作負載，推理速度直接提升到原來的5倍。“要么選高延遲CPU，要么選碎片化的專用加速器”這個二元困局，在架構層面被SME2打掉了。CPU不再是一個妥協選項，而成了一個正經的、統一可編程的、能跑滿生成式模型算力需求的計算平臺。

硬件只是故事的一半。如果開發者需要手動去調SME2的指令集，那這條技術路線出不了實驗室。Google AI Edge作為集成軟件棧補上了關鍵一塊。LiteRT在執行推理時，會在運行時自動通過XNNPACK和集成了KleidiAI的算子庫去調用SME2。整個過程對開發者來說是透明的。LiteRT會識別出iGeMM和GeMM這類數學密集的內核，然后把它們派發給SME2去加速。開發者不需要關心底層指令，也不需要寫任何針對Arm的定制代碼。軟件棧自動完成從模型到硬件的映射、自動選擇精度最高的執行路徑。

部署環節同樣被工具鏈打包處理。模型量化是離線和在線部署里最容易踩坑的環節。AI Edge Quantizer負責處理復雜的模型壓縮，Model Explorer則提供了一個可視化的性能熱力圖，能直接定位模型中的瓶頸層。用Stability AI的開源音頻模型stable-audio-open-small做實際驗證，本來是浮點PyTorch的版本，經過這個“轉換-量化優化-部署”的管線后，被打包成一個混合精度（FP16/Int8）的格式，在Arm的CPU上實現了端側生成高質量音頻。

這里有兩個維度值得拆開看。第一個維度是生成質量。像stable-audio-open-small這種擴散模型，參數量在十億左右，用一句話生成11秒的立體聲音頻片段。如果開發者隨隨便便對整個模型權重做暴力量化，音頻質量會直接崩掉。找出那個最優的量化配置本身就是一個高復雜度的搜索問題，AI Edge Quantizer解決的正是這一點，讓模型體積降下來但質量還能維持可用狀態。第二個維度是設備覆蓋。原文特意強調，能在CPU上高效跑音頻生成不只是一個技術里程碑，更意味著有機會將這類應用直接鋪開到全球數十億臺手機設備上，因為這些設備都是CPU驅動的。這不再是某個高端旗艦芯片的獨占功能。

從技術棧的角度，KleidiAI優化被直接嵌入XNNPACK這個設定，意味著開發者不需要額外引入任何庫或SDK。只要用LiteRT跑推理，Arm CPU上的SME2加速就會自動生效。這個“自動獲益”的設計很關鍵。它把一條原本高度依賴手工優化、需要同時懂模型壓縮和底層指令集的窄路，拓寬成了一個普通應用開發者也能使用的通用路徑。擴散模型不是另類，而是被選來演示這條端到端路徑的典型案例。轉換、優化、部署，三步走完，一個原本只能在云端或高端GPU上跑的PyTorch模型，最終變成能在移動端CPU上實時推理的混合精度模型。這種“端到端工作流可復現”的體感，才是工具鏈成熟度的標志。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.