網易首頁 > 網易號 > 正文申請入駐

蘋果用AI重新發明了圖像壓縮：同樣畫質，文件只要三分之一

2026-06-01 14:09:43　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

一張圖能壓多小？

2025 年 2 月，國際圖像專家組（JPEG）宣布了一件被行業低調慶祝的事：JPEG AI，這項歷時多年、被寄予厚望的第一個端到端學習型圖像編碼國際標準，正式發布。

消息傳開，不少研究者在社交媒體上轉發，配上「AI 終于進了標準」的評論。

JPEG 標準誕生于 1992 年，三十多年來一直是人類數字圖像的一門基礎語言。而現在，人工智能開始接手重寫這門語言的語法。

然而，慶祝背后有一個微妙的現實：即便是 JPEG AI，距離真正的「感知壓縮」，仍有相當距離。

工程師們知道，傳統衡量壓縮質量的指標峰值信噪比（PSNR）其實和人眼看到的「好不好看」關系并不大。一張圖在 PSNR 上得了高分，人看了卻可能覺得平平無奇；而另一張 PSNR 偏低的圖，人卻覺得細節豐富、質感真實。優化數學指標，和優化人眼感知，是兩件完全不同的事。

幾十年來，從 JPEG 到 VVC，再到 JPEG AI，幾乎所有編解碼器的設計邏輯，都還是在數學指標的框架里兜圈子。感知壓縮（直接針對人眼體驗來優化）一直像是學術論文里的遠景目標，而非可以裝進手機的工程現實。

就在這個節骨眼上，蘋果的一支工程師團隊悄悄發了一篇論文，給出了他們的答案，代號：PICO

論文標題：What Matters in Practical Learned Image Compression
論文地址：https://arxiv.org/pdf/2605.05148

為什么「看起來更好」比「數字更高」難得多？

理解 PICO 之前，先要理解圖像壓縮到底在做什么。

把一張照片存成文件，本質上是一道「忘記什么、記住什么」的取舍題。存儲空間有限，就必須扔掉一部分信息，同時讓看的人盡量察覺不到。不同的編解碼器，遵循不同的「扔法」。

JPEG、AV1、VVC 等傳統編解碼器都是工程師手工設計的規則系統。它們把圖像切塊、變換、量化、熵編碼，每一步都是數十年積累的人工經驗。這類系統可以在 PSNR 這樣的數學指標上表現極好，但它們的設計本質上是面向「減少像素誤差」，而非「減少人眼不適感」。

問題在于，人眼并不是像素誤差計。人眼對紋理、對文字、對細節的敏感程度，遠比數學公式復雜。當你把一張街景照片壓縮得很小，PSNR 可能依然體面，但你會看到建筑邊緣模糊、路牌文字變形 —— 而這些，恰恰是人眼最先察覺的東西。

學習型編解碼器的出現，理論上打開了一扇新門：神經網絡可以直接針對人的感知進行端到端訓練，而不是針對數學公式。但在 PICO 之前，已有的感知型學習編解碼器，要么速度慢得無法實用，要么缺乏跨設備兼容性，要么無法靈活控制碼率，根本裝不進一款消費級產品。

三個核心問題，三種解法

PICO 的全稱是Perceptual Image Codec（感知圖像編解碼器）。這個名字直接點明了它的目標：讓人眼滿意。

研究團隊系統探索了數百萬種模型配置，并引入了幾項關鍵技術創新。

第一個問題：熵編碼慢，怎么辦？

圖像壓縮里有一個難題：為了壓得更小，編解碼器需要用「熵模型」來精確估計每個像素的信息量。最精確的方法叫自回歸編碼：每壓縮一個像素，都要先看看周圍已壓縮的像素，依次預測。這就像廚師每放一塊食材，都要回頭看看鍋里的狀態，才能決定下一步。精確，但極慢。

PICO 的解法是「一次性上下文模型」（One-shot Context Model）：把熵編碼里最關鍵的「尺度參數」單獨拆出來，在一次前向傳播中全部算完，不再需要來回等待；而其余參數可以并行計算，保留了自回歸的精度，卻繞開了它的速度瓶頸。結果是：去掉這個模塊，模型性能下降 10.28%；加上它，速度幾乎不受影響。

第二個問題：感知訓練會產生幻覺，怎么辦？

用 GAN（對抗神經網絡）訓練出來的圖像往往「看起來很真實」，但可能是編造出來的真實 —— 頭發絲變成了不存在的花紋，平滑表面多出了虛假紋理。更麻煩的是，人眼對文字極度敏感，哪怕一個字母變形一點點，就會立刻察覺。

PICO 針對文字專門設計了TextFidelityLoss：用一個現成的文字檢測器自動找出圖中的文字區域，在這些區域強制施加嚴格的像素保真約束，同時壓制 GAN 在文字區域的「發揮空間」。實驗顯示，加上這項損失函數后，文字區域的絕對誤差降低了整整一半。

第三個問題：圖像分塊處理會留下色塊邊界，怎么辦？

為了在手機芯片上快速運行，PICO 把圖像切成一塊塊 504×504 像素的瓦片，分別處理再拼回去。但 GAN 在訓練時傾向于忽略低頻色彩，導致相鄰瓦片之間常出現可見的色差，類似于修圖時「沒有拼好」的感覺。研究團隊專門引入了TilingArtifactLoss，一種多分辨率的 L1 損失，強制模型在多個空間頻率上保持色彩一致。這項措施讓瓦片邊界的誤差也下降了一半以上。

實驗結果

蘋果團隊沒有只靠基準評測指標說話。他們委托第三方平臺 Mabyduck，組織了一次大規模的人類主觀評測。

評測采用盲測兩兩對比的方式：610 位經過篩選的評測者（需通過色盲檢測和壓縮偽影辨別測試），對同一張圖在不同編解碼器下的重建結果進行配對比較，最終匯總為 Bayesian ELO 分數。共收集了 74,925 次配對比較結果。

最終數字說明了一切：在相同視覺質量下，PICO 的文件體積只有 AV1、AV2、VVC、ECM 和 JPEG AI 的三分之一到二分之一—— 換言之，存同樣的圖，它需要的比特數只有這些標準的 30%-43%。對比目前最強的學習型感知編解碼器（HiFiC、MRIC 等），PICO 也節省了 20%-40% 的文件大小。

速度方面，在 iPhone 17 Pro Max 上，PICO 編碼一張 12MP 的照片僅需 230 毫秒，解碼只需 150 毫秒。而大多數頂級 ML 編解碼器在 NVIDIA V100 服務器顯卡上運行，都比這個慢。

值得注意的是，論文還專門記錄了一個「反例」：在 PSNR 這個傳統指標上，PICO 表現平平，甚至不如 DCVC-RT 和 VVC。這恰好印證了團隊的基本判斷：優化感知質量和優化數學指標，本質上是兩個方向，魚與熊掌不可兼得。

一個時代節點，而非終點

PICO 當然也有局限性。論文坦承，對于卡通、示意圖等高度規則化的合成圖像，PICO 的壓縮效率不如傳統編解碼器，因為這類內容天然適合規則驅動的自回歸建模，而非感知生成。

但這些局限并不掩蓋這項工作的意義所在。

過去三十年，圖像壓縮的技術進步，幾乎都發生在「讓數字更好看」的賽道上。從 JPEG 到 HEVC，再到 VVC，工程師一代代優化的是 PSNR、SSIM 這類指標。而人眼的感知，始終是個被繞開的「難題」。

PICO 是第一次有人系統地把這道難題正面拆解：從架構搜索、損失函數設計，到大規模人類主觀評測，并最終裝進了一款可以在手機上實時運行的編解碼器。

當你下一次用蘋果設備分享一張照片，也許不會感受到任何不同。但或許在那個安靜的壓縮過程里，一套針對人眼感知量身打造的算法，正在決定哪些信息值得留下，哪些可以悄悄遺忘。

團隊：從 WaveOne 到蘋果

這篇論文的通訊作者是 Oren Rippel，蘋果研究員，壓縮領域的老面孔。

他的名字最早大規模出現，是在 2017 年。彼時他還在初創公司 WaveOne，發表了一篇名為「實時自適應圖像壓縮」的論文，用神經網絡打敗了當時所有主流編解碼器，同時維持實時運行速度。那篇論文在學界引發了不小的波瀾，也奠定了 Rippel 在學習型壓縮領域的地位。

之后，同一批核心人員在 WaveOne 繼續深耕，推出了面向視頻壓縮的 ELF-VC，在 UVG 視頻測試集上相比 H.264 實現了 44% 的碼率節省，同時運行速度比同類 ML 編解碼器快五倍以上。

WaveOne 的這支團隊后來整體加入蘋果。而這次的 PICO，是他們帶著蘋果的算力和平臺資源，在圖像感知壓縮上交出的第一份系統性答卷。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.