編輯|Panda
一張圖能壓多小?
2025 年 2 月,國際圖像專家組(JPEG)宣布了一件被行業低調慶祝的事:JPEG AI,這項歷時多年、被寄予厚望的第一個端到端學習型圖像編碼國際標準,正式發布。
![]()
消息傳開,不少研究者在社交媒體上轉發,配上「AI 終于進了標準」的評論。
JPEG 標準誕生于 1992 年,三十多年來一直是人類數字圖像的一門基礎語言。而現在,人工智能開始接手重寫這門語言的語法。
然而,慶祝背后有一個微妙的現實:即便是 JPEG AI,距離真正的「感知壓縮」,仍有相當距離。
工程師們知道,傳統衡量壓縮質量的指標峰值信噪比(PSNR)其實和人眼看到的「好不好看」關系并不大。一張圖在 PSNR 上得了高分,人看了卻可能覺得平平無奇;而另一張 PSNR 偏低的圖,人卻覺得細節豐富、質感真實。優化數學指標,和優化人眼感知,是兩件完全不同的事。
幾十年來,從 JPEG 到 VVC,再到 JPEG AI,幾乎所有編解碼器的設計邏輯,都還是在數學指標的框架里兜圈子。感知壓縮(直接針對人眼體驗來優化)一直像是學術論文里的遠景目標,而非可以裝進手機的工程現實。
就在這個節骨眼上,蘋果的一支工程師團隊悄悄發了一篇論文,給出了他們的答案,代號:PICO
![]()
- 論文標題:What Matters in Practical Learned Image Compression
- 論文地址:https://arxiv.org/pdf/2605.05148
為什么「看起來更好」比「數字更高」難得多?
理解 PICO 之前,先要理解圖像壓縮到底在做什么。
把一張照片存成文件,本質上是一道「忘記什么、記住什么」的取舍題。存儲空間有限,就必須扔掉一部分信息,同時讓看的人盡量察覺不到。不同的編解碼器,遵循不同的「扔法」。
JPEG、AV1、VVC 等傳統編解碼器都是工程師手工設計的規則系統。它們把圖像切塊、變換、量化、熵編碼,每一步都是數十年積累的人工經驗。這類系統可以在 PSNR 這樣的數學指標上表現極好,但它們的設計本質上是面向「減少像素誤差」,而非「減少人眼不適感」。
問題在于,人眼并不是像素誤差計。人眼對紋理、對文字、對細節的敏感程度,遠比數學公式復雜。當你把一張街景照片壓縮得很小,PSNR 可能依然體面,但你會看到建筑邊緣模糊、路牌文字變形 —— 而這些,恰恰是人眼最先察覺的東西。
學習型編解碼器的出現,理論上打開了一扇新門:神經網絡可以直接針對人的感知進行端到端訓練,而不是針對數學公式。但在 PICO 之前,已有的感知型學習編解碼器,要么速度慢得無法實用,要么缺乏跨設備兼容性,要么無法靈活控制碼率,根本裝不進一款消費級產品。
三個核心問題,三種解法
PICO 的全稱是Perceptual Image Codec(感知圖像編解碼器)。這個名字直接點明了它的目標:讓人眼滿意。
![]()
研究團隊系統探索了數百萬種模型配置,并引入了幾項關鍵技術創新。
第一個問題:熵編碼慢,怎么辦?
圖像壓縮里有一個難題:為了壓得更小,編解碼器需要用「熵模型」來精確估計每個像素的信息量。最精確的方法叫自回歸編碼:每壓縮一個像素,都要先看看周圍已壓縮的像素,依次預測。這就像廚師每放一塊食材,都要回頭看看鍋里的狀態,才能決定下一步。精確,但極慢。
PICO 的解法是「一次性上下文模型」(One-shot Context Model):把熵編碼里最關鍵的「尺度參數」單獨拆出來,在一次前向傳播中全部算完,不再需要來回等待;而其余參數可以并行計算,保留了自回歸的精度,卻繞開了它的速度瓶頸。結果是:去掉這個模塊,模型性能下降 10.28%;加上它,速度幾乎不受影響。
![]()
第二個問題:感知訓練會產生幻覺,怎么辦?
用 GAN(對抗神經網絡)訓練出來的圖像往往「看起來很真實」,但可能是編造出來的真實 —— 頭發絲變成了不存在的花紋,平滑表面多出了虛假紋理。更麻煩的是,人眼對文字極度敏感,哪怕一個字母變形一點點,就會立刻察覺。
PICO 針對文字專門設計了TextFidelityLoss:用一個現成的文字檢測器自動找出圖中的文字區域,在這些區域強制施加嚴格的像素保真約束,同時壓制 GAN 在文字區域的「發揮空間」。實驗顯示,加上這項損失函數后,文字區域的絕對誤差降低了整整一半。
![]()
第三個問題:圖像分塊處理會留下色塊邊界,怎么辦?
為了在手機芯片上快速運行,PICO 把圖像切成一塊塊 504×504 像素的瓦片,分別處理再拼回去。但 GAN 在訓練時傾向于忽略低頻色彩,導致相鄰瓦片之間常出現可見的色差,類似于修圖時「沒有拼好」的感覺。研究團隊專門引入了TilingArtifactLoss,一種多分辨率的 L1 損失,強制模型在多個空間頻率上保持色彩一致。這項措施讓瓦片邊界的誤差也下降了一半以上。
實驗結果
蘋果團隊沒有只靠基準評測指標說話。他們委托第三方平臺 Mabyduck,組織了一次大規模的人類主觀評測。
評測采用盲測兩兩對比的方式:610 位經過篩選的評測者(需通過色盲檢測和壓縮偽影辨別測試),對同一張圖在不同編解碼器下的重建結果進行配對比較,最終匯總為 Bayesian ELO 分數。共收集了 74,925 次配對比較結果。
![]()
最終數字說明了一切:在相同視覺質量下,PICO 的文件體積只有 AV1、AV2、VVC、ECM 和 JPEG AI 的三分之一到二分之一—— 換言之,存同樣的圖,它需要的比特數只有這些標準的 30%-43%。對比目前最強的學習型感知編解碼器(HiFiC、MRIC 等),PICO 也節省了 20%-40% 的文件大小。
![]()
速度方面,在 iPhone 17 Pro Max 上,PICO 編碼一張 12MP 的照片僅需 230 毫秒,解碼只需 150 毫秒。而大多數頂級 ML 編解碼器在 NVIDIA V100 服務器顯卡上運行,都比這個慢。
值得注意的是,論文還專門記錄了一個「反例」:在 PSNR 這個傳統指標上,PICO 表現平平,甚至不如 DCVC-RT 和 VVC。這恰好印證了團隊的基本判斷:優化感知質量和優化數學指標,本質上是兩個方向,魚與熊掌不可兼得。
一個時代節點,而非終點
PICO 當然也有局限性。論文坦承,對于卡通、示意圖等高度規則化的合成圖像,PICO 的壓縮效率不如傳統編解碼器,因為這類內容天然適合規則驅動的自回歸建模,而非感知生成。
但這些局限并不掩蓋這項工作的意義所在。
過去三十年,圖像壓縮的技術進步,幾乎都發生在「讓數字更好看」的賽道上。從 JPEG 到 HEVC,再到 VVC,工程師一代代優化的是 PSNR、SSIM 這類指標。而人眼的感知,始終是個被繞開的「難題」。
PICO 是第一次有人系統地把這道難題正面拆解:從架構搜索、損失函數設計,到大規模人類主觀評測,并最終裝進了一款可以在手機上實時運行的編解碼器。
當你下一次用蘋果設備分享一張照片,也許不會感受到任何不同。但或許在那個安靜的壓縮過程里,一套針對人眼感知量身打造的算法,正在決定哪些信息值得留下,哪些可以悄悄遺忘。
團隊:從 WaveOne 到蘋果
這篇論文的通訊作者是 Oren Rippel,蘋果研究員,壓縮領域的老面孔。
他的名字最早大規模出現,是在 2017 年。彼時他還在初創公司 WaveOne,發表了一篇名為「實時自適應圖像壓縮」的論文,用神經網絡打敗了當時所有主流編解碼器,同時維持實時運行速度。那篇論文在學界引發了不小的波瀾,也奠定了 Rippel 在學習型壓縮領域的地位。
![]()
之后,同一批核心人員在 WaveOne 繼續深耕,推出了面向視頻壓縮的 ELF-VC,在 UVG 視頻測試集上相比 H.264 實現了 44% 的碼率節省,同時運行速度比同類 ML 編解碼器快五倍以上。
WaveOne 的這支團隊后來整體加入蘋果。而這次的 PICO,是他們帶著蘋果的算力和平臺資源,在圖像感知壓縮上交出的第一份系統性答卷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.