自監督表征學習一直有個讓人頭疼的問題:模型很容易“學壞”——如果它把所有輸入都映射成同一個常量向量,重建誤差照樣能降到零,可是什么語義也沒學到。這種坍縮現象讓無標簽數據的潛力打了折扣,直到聯合嵌入預測架構(JEPA)用一個訓練技巧繞了過去。
JEPA 的核心想法并不復雜:不去逐像素地重建原圖,而是在一個更抽象的嵌入空間里預測被遮擋部分對應的表示。這相當于讓模型忽略光照、紋理等局部細節,轉而去抓取圖像內在的結構。這樣,用更少的配對樣本,就能學到更具泛化能力的語義表征。
![]()
具體實現時,輸入圖像會隨機生成一組寬高比可變的塊狀掩碼。未遮擋的區域經過上下文編碼器(一個標準的視覺Transformer)處理,得到上下文嵌入。而所有被遮擋的位置,會被一個共享的可學習向量 M 取代,同時加上二維正弦位置編碼 PE,告訴模型被遮擋的地方到底在空間中的哪個位置。預測器接收上下文嵌入、掩碼標記和位置編碼,輸出對每個被遮擋塊在嵌入空間里的預測 y^。
另一邊,目標編碼器看到的是完整圖像,配合掩碼的邊界框信息,產生對應塊的真實目標嵌入 y。訓練目標是最小化 y^ 和 y 之間的平均 L2 距離。為了讓模型無法“作弊”,目標編碼器的參數并不靠梯度反向傳播更新,而是通過指數移動平均(EMA)從上下文編碼器緩慢滑過來。
這個 EMA 來自 BYOL 論文中的技巧。每次訓練步驟,目標編碼器的權重 ξ 會按比例 α 向上下文編碼器權重 θ 靠近:ξ ← α ξ + (1?α) θ。α 通常設得比較高,比如 α=0.996。這樣的更新相當于給目標編碼器裝了一根“減速帶”:一步前的快照權重占 0.996,100 步前大約 0.67,1000 步前就只剩下 0.02 的影響了。因為目標編碼器滯后于上下文編碼器,就算上下文端拼命想坍縮,目標端的變化也跟不上,整個系統被強制停留在有意義的解上。
回顧整個流程,輸入掩碼圖像先被上下文編碼器壓縮成緊湊表示,再靠位置嵌入的指引,由預測器去猜測那些空缺區域在高維空間里的樣子。目標通過 EMA 維持穩定,損失則只關心預測嵌入與真實嵌入的差距。這樣,模型沒有直接碰觸原始像素,卻依然能從純粹的自監督信號里剝離出物體形狀、部件關系等高層語義。
這項工作的自我監督設定,跳出了兩個舊框框:第一,它證明了語義信息本身就隱藏在像素的空間結構中,不需要外部標簽來注入;第二,預測發生在表示空間而非輸入空間,成功躲開了像素噪聲對語義建模的干擾。對于熟悉編碼器-解碼器預訓練的研究者來說,這里最大的創新在于訓練目標的重新設計——不是要求模型畫出缺失的像素,而是要求它想清楚缺失部分的“概念”是什么。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.