網易首頁 > 網易號 > 正文申請入駐

克服表示坍縮：自監督學習如何不靠標簽抓到語義

2026-06-01 12:09:32　來源: 野生運營

北京舉報

分享至

自監督表征學習一直有個讓人頭疼的問題：模型很容易“學壞”——如果它把所有輸入都映射成同一個常量向量，重建誤差照樣能降到零，可是什么語義也沒學到。這種坍縮現象讓無標簽數據的潛力打了折扣，直到聯合嵌入預測架構（JEPA）用一個訓練技巧繞了過去。

JEPA 的核心想法并不復雜：不去逐像素地重建原圖，而是在一個更抽象的嵌入空間里預測被遮擋部分對應的表示。這相當于讓模型忽略光照、紋理等局部細節，轉而去抓取圖像內在的結構。這樣，用更少的配對樣本，就能學到更具泛化能力的語義表征。

具體實現時，輸入圖像會隨機生成一組寬高比可變的塊狀掩碼。未遮擋的區域經過上下文編碼器（一個標準的視覺Transformer）處理，得到上下文嵌入。而所有被遮擋的位置，會被一個共享的可學習向量 M 取代，同時加上二維正弦位置編碼 PE，告訴模型被遮擋的地方到底在空間中的哪個位置。預測器接收上下文嵌入、掩碼標記和位置編碼，輸出對每個被遮擋塊在嵌入空間里的預測 y^。

另一邊，目標編碼器看到的是完整圖像，配合掩碼的邊界框信息，產生對應塊的真實目標嵌入 y。訓練目標是最小化 y^ 和 y 之間的平均 L2 距離。為了讓模型無法“作弊”，目標編碼器的參數并不靠梯度反向傳播更新，而是通過指數移動平均（EMA）從上下文編碼器緩慢滑過來。

這個 EMA 來自 BYOL 論文中的技巧。每次訓練步驟，目標編碼器的權重 ξ 會按比例 α 向上下文編碼器權重 θ 靠近：ξ ← α ξ + (1?α) θ。α 通常設得比較高，比如 α=0.996。這樣的更新相當于給目標編碼器裝了一根“減速帶”：一步前的快照權重占 0.996，100 步前大約 0.67，1000 步前就只剩下 0.02 的影響了。因為目標編碼器滯后于上下文編碼器，就算上下文端拼命想坍縮，目標端的變化也跟不上，整個系統被強制停留在有意義的解上。

回顧整個流程，輸入掩碼圖像先被上下文編碼器壓縮成緊湊表示，再靠位置嵌入的指引，由預測器去猜測那些空缺區域在高維空間里的樣子。目標通過 EMA 維持穩定，損失則只關心預測嵌入與真實嵌入的差距。這樣，模型沒有直接碰觸原始像素，卻依然能從純粹的自監督信號里剝離出物體形狀、部件關系等高層語義。

這項工作的自我監督設定，跳出了兩個舊框框：第一，它證明了語義信息本身就隱藏在像素的空間結構中，不需要外部標簽來注入；第二，預測發生在表示空間而非輸入空間，成功躲開了像素噪聲對語義建模的干擾。對于熟悉編碼器-解碼器預訓練的研究者來說，這里最大的創新在于訓練目標的重新設計——不是要求模型畫出缺失的像素，而是要求它想清楚缺失部分的“概念”是什么。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.