![]()
近日,美國斯坦福大學李飛飛、吳佳俊團隊發布了一個圖片數據集,名字叫做 GPIC,該數據集包含了一億張照片,總像素接近 28 萬億。每張圖片都配有詳細的文字描述,有的是一兩個關鍵詞,有的是五六句話的長段落。
其最特別的地方在于所有圖片都可免費用于商業和研究,無需擔心版權問題。他們還提供了一個標準的測試方法,讓不同公司的 AI 模型能夠在同樣的規則下比拼生圖能力。
GPIC 解決了 AI 生圖領域的兩個老大難問題:
其一解決了版權問題,以前大公司訓練模型使用的圖片很多來路不明以至于惹上官司,而 GPIC 所有圖片的許可證都清清楚楚,商用完全沒問題;
其二解決了可重復性問題,以前很多數據集給到是圖片鏈接,時間久了鏈接就會失效,別人沒法復現實驗結果。GPIC 把圖片打包成為固定的 tar 文件然后存在 Hugging Face 上,任何時候下載都是一樣的。
這意味著未來無論是手機里的修圖軟件、游戲里的場景生成器甚至是電影特效工具,都能用上更聰明的 AI 生圖模型。訓練模型需要大量的圖片,以前的做法是從網上到處扒圖,然而很多圖片都有版權,很多時候不敢隨便用。
![]()
(來源:https://arxiv.org/abs/2605.30341)
對于使用圖片的研究者來說,不同數據集的測試標準不一樣,A 模型說自己得分很高,B 模型說自己是第一,根本無法公平比較。
李飛飛等人此次干脆自己從頭搭建了一套系統,他們從 Flickr 和 Wikimedia 兩個網站收集了超過 1.1 億張圖片,只挑選那些明確允許商用的。收集到的圖片還不能直接使用,有的圖片分辨率太低模糊不清,有的近乎空白,還有些圖片的內容不合適。
為此,他們使用 Qwen3 VL 4B 模型做自動篩選,把質量差和不安全的圖片踢出去,大約淘汰了百分之一。剩下的一億張照片里,還有大量的重復內容。對于一些連拍照片、已被轉發傳播的照片以及修改版照片,都需要對其進行去重。
![]()
(來源:https://arxiv.org/abs/2605.30341)
他們使用一種名為 SSCD 的拷貝檢測技術,給每一張圖片都生成一個獨一無二的特征碼,對于那些相似度過高的照片只保留其中一張。經過這套流程之后,最終留下了干凈的照片。
圖片準備好了,接下來就是配上文字描述。對于同一種圖片,可以有多種文字描述的方式。針對同一個畫面,李飛飛等人設計了四種描述方式。
- 首先是標簽式,就是為圖片設置幾個關鍵詞,這種比較適合快速檢索。
- 其次是短描述式,即使用一兩句話來概括主要內容,方便大眾用戶理解。
- 再次是中描述式,就是用兩三句話來交代細節和空間關系。
- 最后是長描述式,就是使用五到七句話把背景、物體位置和文字信息全部寫清楚。
他們累計給一億張照片設置了描述,短描述和中描述各占 45%,標簽占 1%,長描述占 9%。面對這樣一個工作量巨大的描述工作,肯定不能使用手工來寫。他們使用 Qwen3 VL 4B 模型來批量生成,處理全部圖使用了大約 500 張 H100 顯卡,跑了一個多月。
![]()
(來源:https://arxiv.org/abs/2605.30341)
為了驗證 AI 寫的描述到底如何,他們隨機抽取了 1,520 張圖,用人工方式重寫一遍描述,隨后拿著 AI 版本和人工版本作對比。
對比維度主要有五個,分別是:整體概括準不準、數量數得對不對、空間關系厘沒厘清、顏色材質等屬性綁定是否正確、圖片里的文字識別得準不準。
結果顯示 Qwen3 VL 4B 模型在速度和準確率之間取得了最好的平衡,比更大的 Qwen3 VL 30B 模型并沒有慢太多,但是質量卻非常接近。
為了用好這個數據集,他們設計了一套測試規則,把一億張圖片分成三塊,大部分用來訓練模型,20 萬張用來調試參數,100 萬張作為測試基準。訓練 AI 生圖模型的時候,只能使用那 100 萬張測試集里的 5 萬條描述去生成圖片,接著和 100 萬張真實圖片做對比,看哪個模型生成得最像。
用來比較的指標叫做 FD DINOv2,它使用 DINOv2 這個視覺模型來提取圖片的特征,然后再計算生成圖和真實圖之間的統計距離。
![]()
(來源:https://arxiv.org/abs/2605.30341)
他們還訓練了一個參考模型作為基準,使用的是 JiT 架構,這是一種直接在像素空間里做流匹配的模型,參數為 1.1 億,在 GPIC 訓練了一個周期,用了大約 40 個小時,8 張 H100 顯卡。最好結果的 FD DINOv2 得分為 76.25,這個分數不算高,不過從論文來看他們并不打算沖高分,只是給后來者立個標桿。相關論文的第一作者是李飛飛團隊的博士生 Keshigeyan Chandrasegaran。
對于 AI 生圖來說,GPIC 好比為其提供了一本教科書,它不僅免費、開放、標準統一,還附帶考試大綱,一定程度上可以為 AI 公司提供一個可以公平比較的標準。
參考資料:
相關論文 https://arxiv.org/abs/2605.30341
https://keshik6.github.io/
排版:胡巍巍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.