網易首頁 > 網易號 > 正文申請入駐

李飛飛又出手了！開源了1億張授權圖片數據集，重塑視覺生成基準

2026-05-30 21:29:45　來源: DeepTech深科技

北京舉報

分享至

近日，美國斯坦福大學李飛飛、吳佳俊團隊發布了一個圖片數據集，名字叫做 GPIC，該數據集包含了一億張照片，總像素接近 28 萬億。每張圖片都配有詳細的文字描述，有的是一兩個關鍵詞，有的是五六句話的長段落。

其最特別的地方在于所有圖片都可免費用于商業和研究，無需擔心版權問題。他們還提供了一個標準的測試方法，讓不同公司的 AI 模型能夠在同樣的規則下比拼生圖能力。

GPIC 解決了 AI 生圖領域的兩個老大難問題：

其一解決了版權問題，以前大公司訓練模型使用的圖片很多來路不明以至于惹上官司，而 GPIC 所有圖片的許可證都清清楚楚，商用完全沒問題；

其二解決了可重復性問題，以前很多數據集給到是圖片鏈接，時間久了鏈接就會失效，別人沒法復現實驗結果。GPIC 把圖片打包成為固定的 tar 文件然后存在 Hugging Face 上，任何時候下載都是一樣的。

這意味著未來無論是手機里的修圖軟件、游戲里的場景生成器甚至是電影特效工具，都能用上更聰明的 AI 生圖模型。訓練模型需要大量的圖片，以前的做法是從網上到處扒圖，然而很多圖片都有版權，很多時候不敢隨便用。

（來源：https://arxiv.org/abs/2605.30341）

對于使用圖片的研究者來說，不同數據集的測試標準不一樣，A 模型說自己得分很高，B 模型說自己是第一，根本無法公平比較。

李飛飛等人此次干脆自己從頭搭建了一套系統，他們從 Flickr 和 Wikimedia 兩個網站收集了超過 1.1 億張圖片，只挑選那些明確允許商用的。收集到的圖片還不能直接使用，有的圖片分辨率太低模糊不清，有的近乎空白，還有些圖片的內容不合適。

為此，他們使用 Qwen3 VL 4B 模型做自動篩選，把質量差和不安全的圖片踢出去，大約淘汰了百分之一。剩下的一億張照片里，還有大量的重復內容。對于一些連拍照片、已被轉發傳播的照片以及修改版照片，都需要對其進行去重。

（來源：https://arxiv.org/abs/2605.30341）

他們使用一種名為 SSCD 的拷貝檢測技術，給每一張圖片都生成一個獨一無二的特征碼，對于那些相似度過高的照片只保留其中一張。經過這套流程之后，最終留下了干凈的照片。

圖片準備好了，接下來就是配上文字描述。對于同一種圖片，可以有多種文字描述的方式。針對同一個畫面，李飛飛等人設計了四種描述方式。

首先是標簽式，就是為圖片設置幾個關鍵詞，這種比較適合快速檢索。
其次是短描述式，即使用一兩句話來概括主要內容，方便大眾用戶理解。
再次是中描述式，就是用兩三句話來交代細節和空間關系。
最后是長描述式，就是使用五到七句話把背景、物體位置和文字信息全部寫清楚。

他們累計給一億張照片設置了描述，短描述和中描述各占 45%，標簽占 1%，長描述占 9%。面對這樣一個工作量巨大的描述工作，肯定不能使用手工來寫。他們使用 Qwen3 VL 4B 模型來批量生成，處理全部圖使用了大約 500 張 H100 顯卡，跑了一個多月。

（來源：https://arxiv.org/abs/2605.30341）

為了驗證 AI 寫的描述到底如何，他們隨機抽取了 1,520 張圖，用人工方式重寫一遍描述，隨后拿著 AI 版本和人工版本作對比。

對比維度主要有五個，分別是：整體概括準不準、數量數得對不對、空間關系厘沒厘清、顏色材質等屬性綁定是否正確、圖片里的文字識別得準不準。

結果顯示 Qwen3 VL 4B 模型在速度和準確率之間取得了最好的平衡，比更大的 Qwen3 VL 30B 模型并沒有慢太多，但是質量卻非常接近。

為了用好這個數據集，他們設計了一套測試規則，把一億張圖片分成三塊，大部分用來訓練模型，20 萬張用來調試參數，100 萬張作為測試基準。訓練 AI 生圖模型的時候，只能使用那 100 萬張測試集里的 5 萬條描述去生成圖片，接著和 100 萬張真實圖片做對比，看哪個模型生成得最像。

用來比較的指標叫做 FD DINOv2，它使用 DINOv2 這個視覺模型來提取圖片的特征，然后再計算生成圖和真實圖之間的統計距離。

（來源：https://arxiv.org/abs/2605.30341）

他們還訓練了一個參考模型作為基準，使用的是 JiT 架構，這是一種直接在像素空間里做流匹配的模型，參數為 1.1 億，在 GPIC 訓練了一個周期，用了大約 40 個小時，8 張 H100 顯卡。最好結果的 FD DINOv2 得分為 76.25，這個分數不算高，不過從論文來看他們并不打算沖高分，只是給后來者立個標桿。相關論文的第一作者是李飛飛團隊的博士生 Keshigeyan Chandrasegaran。

對于 AI 生圖來說，GPIC 好比為其提供了一本教科書，它不僅免費、開放、標準統一，還附帶考試大綱，一定程度上可以為 AI 公司提供一個可以公平比較的標準。

參考資料：

相關論文 https://arxiv.org/abs/2605.30341

https://keshik6.github.io/

排版：胡巍巍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.