網易首頁 > 網易號 > 正文申請入駐

與 GEAR 高深遠聊世界模型、自進化循環和 DreamDojo

2026-05-20 09:37:37　來源: 晚點LatePost

北京舉報

分享至

與 DreamDojo 一作拆解 “世界模型” buzzword。

文丨實習生付自文

訪談丨程曼祺

過去一年，“世界模型” 成了 AI 圈最熱、也最容易被濫用的概念之一。

它邊界很寬：視頻生成模型可以被稱為世界模型，因為它似乎學到了物理規律；自動駕駛領域也需要世界模型，因為要預測道路環境的變化；機器人研究者也在談論世界模型，因為機器人需要在開展行動前先預測后果。

本期《晚點聊》，我們試圖把這個概念拆清楚。

對談嘉賓是高深遠，一位剛從港科大博士畢業、即將正式加入英偉達具身智能實驗室 GEAR 的年輕研究者。他從 2024 年以來持續研究世界模型，早期做自動駕駛方向，后來在英偉達 GEAR 參與 DreamDojo 和 DreamZero 等工作，是 DreamDojo 的聯合一作。

DreamDojo 是一個服務于 Physical AI 的世界模型；DreamZero 則是一個可能替代 VLA（視覺-語言-動作模型，visual-language-action model）的新的機器人策略，被稱為世界動作模型（WAM，world action model）。

本期前半段，我們梳理了世界模型的大圖景，以及 Google DeepMind、NVIDIA、World Labs 等主要團隊的各自思路。

后半段，我們進入 GEAR 的具體實踐。高深遠認為，世界模型的核心價值不只是生成真實視頻，而是構造一個自進化閉環：世界模型（DreamDojo）預測世界，policy（DreamZero）產生動作，Agent 負責規劃和評估。

圖中大腦代表 agent，機器人代表 policy，地球代表世界模型，中間是數據集。世界模型的輸出（對世界下一刻的預測）是 agent 的輸入，供 agent 給預測打分，打分可用以優化 policy；同時世界模型的輸出也是 policy 的輸入，而 policy 的輸出（動作）是世界模型的輸入。同時，agent 也給 policy 做任務規劃。
世界模型到 agent 和 policy 是用視頻 / 圖像通信；policy 到世界模型是用 action 通信；agent 到 policy 是用文本通信；agent 優化 policy 可以是一個打分數值，也可以是由文本媒介轉過來的一種分數信號。

這個循環今天還沒有真正轉起來，因為這 3 個組件的泛化能力都還不夠。但如果未來能進入相互強化的正循環，機器人就能像 AlphaGo 那樣在虛擬環境下、突破物理限制快速迭代。

這既會服務于機器人、車輛需要的具身能力的訓練；也有更多的可能性，比如縮短試驗周期、并發地做實驗，服務科學發現。

按領域、按表征，世界模型的分類

晚點：世界模型這個詞很大，也是現在 AI 領域典型的 buzzword（流行詞），做游戲、自駕、具身智能的人都會提到。你作為研究者，會怎么給世界模型分類？

高深遠：從上往下可以分成兩類。最 high level 的是用一個 model 模擬環境去做決策；另一類是做基模、多模態，有 world knowledge，能回答各種問題，也叫世界模型。

做決策的人更關注一個預測未來狀態的模型，而且預測過程受條件控制，這個條件一般就是 action。簡單說，它根據過去的歷史和所做的 action 預測未來。

世界模型變熱，和 Sora 這樣的視頻生成技術有關。OpenAI 當時說 Video generation models as world simulators，也就是模型用不同 text 控制未來畫面，這個 text 也可以看作一種 action，是對世界的編輯或干預。所以很多做 VideoGen（視頻生成）的說自己在做世界模型。

但真正對決策有用，光用 text 控制是不夠的。就像機器人輸出的是 action，游戲角色輸出動作或技能，自動駕駛輸出自車軌跡（Ego-vehicle Trajectory，自動駕駛系統對本車未來運動路徑的預測或規劃）。

晚點：你剛剛說的 action，包括文本指令、車的軌跡、機器人動作。如果從 AI 或計算機科學角度，更準確描述，action 是什么？

高深遠：action 就是對世界的一個干預。世界狀態可以是畫面或其他表示。action 輸入之后，會對這個世界產生影響。

晚點：那 action 的主體是不是要區分？比如車和機器人在世界里是主體，但視頻生成，用戶輸入文本更像 “上帝視角”，這該怎么區分？

高深遠：構建決策智能體時，一般只關心自身 action。比如具身智能的一個本體，很難憑自己的意志改變別人。

世界模型可以接受對其他 agent 或者環境的編輯。比如自動駕駛或者游戲場景，Multi-agent（多智能體，多主體交互系統）或可控環境的世界模型很有用。但對通用智能體來說，目前還是只能控制自己的 action。

晚點：現在討論的還是單個機器人，但如果未來真的像馬斯克說的，有一百億臺機器人，可以互相聯網通信，那它們會組成一個更復雜的世界系統。

高深遠：從安全和決策質量的角度考慮，肯定能通信是更好的。長遠看，Multi-agent 的世界模型確實有必要。但從通用性角度，現在還不能假設機器人部署到任何環境里都互相通信，所以自身的世界模型還是最基礎的。

晚點：當年的自動駕駛路線也有類似討論。中國曾經有車聯網的創業項目，比如在路燈上裝激光雷達，讓環境給車信號，不完全靠車自己適應環境。但后來主流還是發展單車智能。

高深遠：國內有基建優勢，V2X（vehicle-to-everything，車與外界對象通信）當時很火，現在可能也還在推。但從通用性角度，還是先開發自身智能比較好。

晚點：你可以繼續說世界模型的分類。

高深遠：按表征來分會比較清楚。世界模型核心就是 action、condition 和要預測的 world state。world state 有不同表征。

第一種比較抽象：用幾何圖結構表征世界。好處是模擬高效，只需要矩陣乘法，也不需要特別多數據。但泛化性不夠好，不同性質的物體可能都要專門定義粒子表征。

第二種是顯式 3D 表征，比如李飛飛老師的 World Labs。把世界重建成 3D 表示，比如點云（刻畫物體幾何表面的離散三維坐標點集）、3D Gaussian Splatting（用 3D 高斯表示并實時渲染場景的方法），或者 occupancy（占據表示，描述空間是否被物體占用的概率模型）。用 3D 表示可以很方便地操控物體、做空間編輯，而且一致性很好，因為有絕對坐標。但決策最終依賴的還是觀測，所以它要先重建 3D，再渲染成 2D 畫面。這個多階段過程不太容易 data driven（數據驅動，主要依賴數據學習規律），也通常需要 3D 標注，不是完全 end-to-end（端到端，從輸入到輸出由同一訓練目標整體優化）優化。

第三種是 Yann LeCun 推的隱空間表征，代表是 JEPA（Joint Embedding Predictive Architecture，聯合嵌入預測架構）。它學習一個表征空間，比視頻更緊致，易預測，計算量少，也更偏與決策相關 high level 信息。這個思路就像人在街上走，不需要精準預測每個行人的臉，只要知道大概有個人，就足夠決策。但要先構建這個隱空間，而且要和其他決策模型接起來。評測和使用問題，都會帶來障礙。

我自己更相信視頻表征，也就是直接預測 video，輸入輸出都是 video。它是端到端的，可以直接用互聯網視頻訓練。現在 video model 已經有能力預測很多細節，而細節預測本身也是采樣，不一定會拖累決策。

簡單說，世界模型大概分成四派：抽象表征、顯式 3D 表征、隱空間表征、視頻表征。目標都是用 action 控制預測，再做決策。

晚點：你最相信的視頻路線，是不是包括你們做的 DreamDojo？Google 的 Genie 系列應該也算？（注：DreamDojo 是 NVIDIA GEAR 等團隊開發的機器人世界模型；Genie 是 Google DeepMind 的交互式世界模型系列。）

高深遠：對。視頻模型可以用數據驅動方式 scale up（擴大模型、數據或算力規模）。從視頻出發，模型本身已經對世界有很好的理解。

包括具身智能，我覺得通往 AGI 的思路，是從數據非常多的 domain 開始，再往數據稀缺的 domain 對齊。目前兩個數據最富足的空間是語言和視頻。機器人數據有 action data，但相對視頻來說還是稀缺。所以從視頻開始接入 action，再做機器人世界模型，是比較合理的。

如果重新構造一個新的表征空間，可能會有效率優勢，但很難直接利用現有語言和視頻模型的泛化能力。

晚點：你前面說 3D 表征的劣勢，在于它不是端到端。那 LeCun 的 JEPA 選擇的隱空間路線是端到端的嗎？構建隱空間可以端到端訓練嗎？

高深遠：從他們之前的研究脈絡看，可能是端到端的，具體技術細節大家也不完全知道。問題在于它切換到了一個新的隱空間，不是現在 GPT、Gemini 或者 Sora 這些模型能直接讀懂的。

如果想利用其他基模能力，就需要把這些模型往新的隱空間上對齊。但我覺得，目前語言和視頻這兩個表征，對通往 AGI 來說已經比較足夠。

晚點：你覺得那條路線至少有一個明顯限制：不能受益于現在整個行業的技術進展和紅利。

高深遠：對。它可能更高效、更適合決策，但這個空間構造出來以后，預測出的隱空間不能直接給語言或者視頻模型看。

晚點：在英偉達 GEAR（Generalist Embodied Agent Research，NVIDIA 的具身智能研究團隊），你們是都比較看好視頻生成路線，還是也有很多不同方向，取決于研究員興趣？

高深遠：首先是看大家興趣，各種有希望的路線都會嘗試。我覺得視頻首先是數據非常富足的模態，有很強的可擴展性。另外隨著技術和芯片的優化，視覺預測的效率問題也會被逐步解決。

但隱空間可能有更高效的優勢。對機器人來說，尤其要部署在真機上，效率是關鍵。但不管怎樣，數據來源肯定還是視頻。隱空間也是從視頻數據中學出來的。

世界模型為何熱起來？數據增多 + 策略變強了

晚點：你兩三年前開始研究世界模型，明顯感覺今年更火了。你覺得為什么？大家看到了它的什么價值？

高深遠：最大因素是視頻生成模型的發展：從一開始什么都模擬不了，到現在可以模擬非常逼真、符合物理規律的場景。

第二是數據。具身智能這幾年變熱后，數據供應商和開源數據集越來越多。過去大家更關注訓練 policy（策略模型，根據觀測選擇動作的決策模型），通過模仿專家軌跡做決策；但世界模型做的是模擬器，不僅要模擬好軌跡，也要模擬差軌跡，才能得到更無偏的 action 反饋。

第三是 policy 本身發展到了一定水平。以前 policy 只能在實驗室里做簡單任務，這時候用不著世界模型。它的價值是幫助 policy 泛化，包括場景、task 和 action 泛化。當 policy 輸出的 action 不那么亂之后，世界模型要模擬的 action 分布會變窄，更容易提供可靠反饋，進一步優化 policy。

這兩者關系可以理解為：世界模型根據過去狀態和 action 預測未來世界狀態，policy 根據當前觀測輸出 action，兩者可以形成循環交互。

晚點：policy 也是一個模型嗎？

高深遠：對，policy 可以是各種各樣的模型，比如之前很主流的 policy 就是 VLA（Vision-Language-Action，視覺-語言-動作模型）。

晚點：那世界模型要部署到具身機器人上嗎？

高深遠：可以部署到機器人上，也可以部署在云端。

晚點：所以世界模型其實在大小上的限制比 policy 要更寬泛？比如 VLA 就要盡量做的小一點，因為要跑在端側，而世界模型可以在端側，也可以在云端。

高深遠：VLA 也可以部署在云端，主要看部署環境。如果網絡很好，policy 和世界模型都可以在云端。

晚點：GEAR 發布了 DreamDojo、DreamZero 之后，國內很多文章說你們提出了新的范式，叫 WAM（World Action Model，世界動作模型）。WAM 和 VLA 是對等的嗎？WAM 是策略還是世界模型？

高深遠：DreamDojo 和 DreamZero 都可以稱為世界模型，但功能不一樣。

WAM 輸入是 text，也就是任務指令，輸出未來視頻和 action。嚴格說，WAM 不是純粹的世界模擬器，它其實也是一個 policy，和 VLA 在功能定位上接近。不同的是，VLA 只輸出 action，而 WAM 還輸出未來 world state。

就像人做決策時有很多層次的 action space（動作空間），可以在文本空間完成。如果把文本也看作一種 action，WAM 接收文本，并模擬它對應的未來世界狀態，從這個意義上說，它也是世界模型。

晚點：所以它是同時輸出機器人的軌跡和動作，也用文本方式輸出世界狀態？

高深遠：對。WAM 相比世界模型，多了 action 預測功能；相比 VLA，多了視頻預測功能。它既具備 high level action planning 下的世界模型功能，也具備 VLA 的功能。但平時我們會把它當作 policy 來用。

晚點：如果把它作為 policy 放到機器人上用，還需要另一個世界模型給它狀態嗎？

高深遠：對，你可以把 WAM 當作 policy，用它輸出 action，再接給 DreamDojo 或其他更常見意義上的世界模型。

世界模型的作用，是你給它 action，它預測未來狀態。這樣在執行 action 之前，不需要真的和現實世界交互，就能看到不同 action 的后果，就可以先搜索再決策。人腦里也在做這件事，只是很快。

實際應用里，可以用 DreamZero、WAM 對不同文本步驟做預測，選出最佳方案。確定子任務后，把更 low level 的動作軌跡交給 DreamDojo，繼續優化接近速度、抓取角度、力度等細節，最終做出更好的決策。

晚點：你剛才講了世界模型最近進展快的原因，包括視頻生成、數據、策略變復雜。長期來看，它的價值是不是也來自一種仿生思路：提前預測后果，讓智能體更高效、更能自主泛化？

高深遠：對，更泛化，也更安全。人做決策時，本來就會先在腦子里想象后果。沒有世界模型，決策就像不管后果，先做了再說；有了世界模型，就可以在做之前知道后果，決策更安全。

它還可以用于評測。具身智能現在評測很難，也不夠公平。每次都要真機部署，還要有人看著；如果模型很爛，可能會損壞設備。不公平在于現實環境很難每次完全一致，光照、物體位置、傳感器狀態都會變化。

但如果在世界模型里評測 policy，就能反復把場景重置到同一狀態，更高效也更公平，本質上是用算力替代真實實驗成本。

另外，世界模型還能生成數據。過去要遙控真實機器人采集 action 數據，再訓練 policy；DreamDojo 有一個例子，是把世界模型做到實時，就可以直接遙操虛擬機器人，生成訓練數據。

晚點：遙操過程中還是要帶傳感器或設備吧？

高深遠：設備可能還是需要的。不過隨著硬件發展，遙操設備也會越來越簡單。然后可以讓 policy 跑在世界模型里，人用遙操設備對它做干預，得到糾正后的軌跡，再提升 policy。

除了這些，世界模型還能做強化學習，在里面試錯非常安全。現在機器人沒有辦法像阿爾法狗那樣進步的最大限制是物理時間：一天只有 24 小時，人也要上下班。但在世界模型里能并行開很多環境、快速迭代。而且如果和現實世界之間沒有 gap，跑一段時間后可能涌現出新能力。當然現在還遠沒到這個階段，但這是很有前景的方向。

世界模型、Policy 和 Agent 的自進化循環

晚點：哈薩比斯（Demis Hassabis，Google DeepMind 聯合創始人兼 CEO）之前也講過，DeepMind 的 Genie 和 SIMA（Scalable Instructable Multiworld Agent，可按自然語言指令在多種 3D 虛擬環境中行動的智能體）有一個很有前景的應用，就是在模擬世界里做實驗、搞科學，甚至加速可控核聚變這類科研。但有個問題：如果世界模型真能模擬到那個程度，AGI 可能已經實現了，那具身智能是不是也該在那之前就實現了？

高深遠：我比較認同哈薩比斯的思路：一個 video space 里的世界模型，加一個通用智能體，比如 SIMA，也是類似于 VLM（Vision-Language Model，視覺語言模型）的架構，兩者組成自我進化的循環。

現在確實離那個階段還很遠，但不代表必須完全成熟后才能開始做循環。它是循環上升的過程。現在主要有三個部分：一個強的 VLM 鏈接循環，定義 agent 做什么任務，并評判世界模型預測出的 world state 質量；agent 根據任務提出 action；世界模型根據 action 想象未來，再交給 agent 做評測。這個循環轉起來后，就可以實現自進化。

當前各個組件的泛化能力還不夠，所以容易出現級聯誤差：agent 不能穩定給出高質量反饋，policy 不能在各種場景下可靠輸出 action，世界模型也不能穩定預測真實未來。但現在大家都在往泛化性推進，到未來某個點，我覺得可能就發生在今年，比如一旦誤差累計到可接受程度，policy 就會開始提升，整個循環反而會越來越簡單。

過去 policy 太差，機器人可能打壞東西，甚至損壞機械臂。但如果它達到一定水平，就能在新環境里采集數據，即使數據質量不高，但因為是 policy 自己產生的，所以這是個自動化過程。

這些 data 又能訓練世界模型，提升它的物理理解和 action 控制能力，這兩點決定了世界模型的世界預測能力，然后再反過來優化 policy。這樣循環下去，policy 輸出的動作分布會越來越集中合理，世界模型要模擬的范圍更小，反饋也更準確，整個系統就會進入正向迭代。

晚點：你說 policy、世界模型和通用 agent 這三個要素，泛化到一定程度后循環跑通，就會進入更快的自進化過程。你還說可能 2026 年某個時間會發生。現在已經 4 月了，你們是看到什么跡象了嗎？

高深遠：很多 paper 也在討論。在一些簡單任務上，已經把這個循環連起來了。

這也是我覺得沒必要重新構造新表征空間的原因。現在 agent 基于 VLM，世界模型基于 video，policy 比如 DreamZero 也可以基于 video backbone（視頻骨干模型），它們都從數據最豐富的模態出發，更容易接起來。agent 和 policy 的交互是語言，policy 和世界模型之間是 action，世界模型和 agent 之間是 video。這幾個模態都相對富足，也能利用現有基模能力，所以很有前景。

晚點：Google 那邊如果對應這個循環，視覺模型是 Genie，agent 是 SIMA。那英偉達的公開成果里可以怎么對應？

高深遠：英偉達這邊是 Cosmos（NVIDIA 面向物理 AI 的世界基礎模型平臺）在做基模，它偏向 VLM 和 video foundation model（視頻基礎模型）。它本身不一定直接負責決策，也不一定天然帶 action 控制，更多是通過后訓練再獲得 action 的輸入輸出。

Google DeepMind 的 Genie 3（實時交互式世界模型）是鍵盤控制，理論上這套流程也能用到機器人上。但他們很喜歡從游戲出發，好處是數據可以無限造，驗證也更方便；機器人數據從產生階段就受物理時間限制。

晚點：那 DreamDojo 相當于 SIMA，還是 Genie 3？

高深遠：DreamDojo 更像 Genie 3。SIMA 相當于一個 policy，控制游戲里的 agent。我們的是物理世界的 policy，比如 VLA 或 DreamZero，控制的是機器人。

晚點：在具身智能的語境里，世界模型就是 DreamDojo，策略是 DreamZero，機器人就相當于是 agent。

高深遠：對，在這個循環里，agent 起到連接循環的作用，可以是 Gemini 這類 VLM。它輸出文本，也給 world state 打分。如果 world state 是 video，就能直接用現有基模來處理。

泛化瓶頸、測評痛點、Google、NV、OpenAI 等團隊進展

晚點：你覺得現在世界模型探索里比較大的瓶頸是什么？

高深遠：現在還是早期，有三個方向值得做：泛化能力、長程穩定性和效率。后兩點也重要，但我覺得泛化最關鍵，它決定世界模型應用的上限。

泛化首先是物理理解的泛化，就是希望世界模型即使在機器人數據沒覆蓋到的場景和物體上，也能模擬得很好，幫助 policy 提升泛化能力。否則 policy 還是只能在見過的物體和場景里進步。

另一個是 action 泛化。世界模型應該盡可能公平地模擬所有 action，而不只是專家動作。過去幾年 policy 積累的數據多是專家數據：抓東西就是抓成功。這對 policy 合理，但對世界模型不應該對動作有偏好。你給它一個抖的動作，它就應該模擬抖；給它一個抓偏的動作，它就應該模擬抓偏。否則給它一個差 action，它可能仍然抓成功。這就沒反饋區分度。

這不是最終瓶頸，因為 policy 達到一定水平后，可以自動采集一部分自己可能輸出的動作數據。世界模型只需要模擬 policy 可能輸出的動作空間。但現階段 policy 還不夠強，所以世界模型仍然需要無偏地模擬不同 action。

晚點：你提到三個方向：泛化、長程穩定性和效率。后兩個是在泛化之后自然解決，還是業界也在努力？

高深遠：長程穩定性與效率和視頻生成的需求是對齊的。現在視頻生成要生成電影了，行業自然會解決誤差累積和效率問題。它們不是限制 policy 的主要瓶頸，但長程仍然很重要。

現在的短程任務，比如 1.5 秒左右的瞬時決策，世界模型模擬一下就能給反饋。但未來通用機器人要做長程任務，需要世界模型有長程模擬和記憶能力，有助于長程 policy 訓練。不過現在還沒到那個階段。

晚點：可以舉一個長程任務的例子嗎？

高深遠：比如你把一個東西放到柜子里，關上門。如果模型沒有長程記憶，關上之后可能就忘了東西在哪里，再打開時，東西在不在就變成隨機猜。

現在的視覺模型，包括 DreamDojo，都還沒有這種長程記憶。這對決策很災難，因為 policy 得不到可靠的世界預測，收到的都是隨機信號。

晚點：如果未來家庭服務是具身智能最大的場景，機器人要像管家一樣知道家里的東西放在哪里。這種長時記憶是靠機器人自己記，還是把家里的信息直接告訴它？

高深遠：這方面具身智能的 research 沒那么關注。首先這種場景更適合在文本空間做，用視頻記冗余度太高；它更多是大模型在解決的問題，技術上也共通。

具身領域更關注任務確定后，怎么把它變成成功率很高的 action。

晚點：那在這三個方向之外，世界模型怎么測評？有比較公認的 Benchmark 嗎？前面說世界模型可以測評具身智能模型，但反過來，怎么測世界模型？

高深遠：這是世界模型最大的痛點。你讀論文會發現，幾乎每篇都自己搞一個 Benchmark，而且通常只比少數幾個模型。主要是機器人決策世界模型很難 zero-shot（零樣本，指未經特定訓練直接適配新任務或新對象）到不同機器人上。

世界模型輸入 action，預測未來 state。但不同機器人自由度不同，action space 也不一樣。所以世界模型往往一一對應機器人本體。語言模型和視頻生成模型輸入輸出空間天然統一，容易有公開 Benchmark。但機器人領域很難把模型放在一起公平評測。

所以要么有一個很強的世界模型，掌握所有的 action space，要么所有團隊收斂到同一種機器人。否則大家只能把別人的世界模型拿過來，在自己的機器人本體和 action space 上重新訓一遍，成本很高。

晚點：那業界怎么判斷誰做得好？

高深遠：沒有直接指標。只能拿過來試。即使大家用同一種機器人，action space 一樣，但相機裝不同位置，訓出來的世界模型也會不同。

晚點：這對投資人來說就更難判斷了。

高深遠：對。現在就是比較早期。

晚點：那你可以講講業界做得比較好的方向或團隊嗎？

高深遠：學界很多組都在做，因為這個領域還早。大廠里比較明確做世界模型的有 NVIDIA；Yann LeCun 的 AMI（Advanced Machine Intelligence，楊立昆在 Meta 時領導的高級機器智能路線）做的是面向決策的隱空間世界模型；李飛飛老師的 World Labs 更偏顯式 3D 表征，對游戲和自動駕駛有優勢。

還有英國自動駕駛公司 Wayve，做過 GAIA 系列世界模型；還有一個大佬叫 Anthony Hu，他加入的創業公司 General Intuition 也在做游戲世界模型，游戲的優勢是能突破物理時間限制、快速積累數據，而且游戲里的很多 3D 知識對訓練決策智能體有用。我們之前也做過 NitroGen（面向通用游戲智能體的視覺動作基礎模型），驗證了游戲和現實決策可以共用一套 policy 架構。

我自己也比較關注 Google DeepMind，他們的思路很典型：把 agent、VLA 和世界模型都往語言、視頻這些數據富足的模態上對齊，繼承模態的泛化能力，再形成自我進化循環，并先在游戲里驗證。

晚點：OpenAI 和 Anthropic 在探索世界模型、agent 和 policy 自進化上做了什么嗎？

高深遠：Anthropic 動作比較少。OpenAI 很早做過 robotics，也出過不少 demo，但 GPT 成為主線后，這個方向一度沒那么被推進。最近又明顯重新加碼了，尤其是把 Sora 團隊并到 robotics lab 之后，應該是想在世界模型上做一些布局。

晚點：你覺得 Anthropic 不做這個方向會是一個 miss 嗎？

高深遠：不會。首先它能統治虛擬世界里的 agent 已經很強了。做 physical AGI（具備物理世界操作能力的通用人工智能）有兩條路線：一條是直接做機器人數據、世界模型和 policy；另一條是先把語言、視頻這些基模做強，再把 robotics 作為最后一步接上。Anthropic 更像后者。我們做 DreamZero，也是因為發現 video 和 action 的對齊很強，所以這條路也完全可能走通。

晚點：在你最看好的 video-based 世界模型路線里，誰最有可能做成？我們具身季報的嘉賓 Peter 陳哲覺得關鍵是誰能把視頻生成模型做好，而這件事很吃數據和算力，所以現在更占優的，還是 Google、字節、快手這類有視頻數據優勢的公司。

高深遠：基座模型肯定要足夠強。但現在視頻生成基模也開始分叉了，有些在往電影級生成走，這種分布不一定最適合 robotics。總體上，贏家還是得先有強基模。NVIDIA 走的是開源路線，創業公司也可以直接基于這些開源模型去做。

“在學界繼續做自動駕駛世界模型沒意思了”

晚點：從 24 年到 26 年，從上海 AI Lab 到 GEAR，你這兩年一直都在做世界模型，這兩年的研究歷程是怎樣的？

高深遠：我大概從 2023 年下半年開始做世界模型，一開始在自動駕駛。最早做 Multi-agent 感知，但這類數據稀缺，所以先用生成技術做數據生成。后來看到特斯拉出了一個世界模型，就轉去做單 agent 的自動駕駛世界模型了，因為這條路線更通用。

當時學界主要依賴小規模公開數據集，但 video 世界模型的關鍵是吃下大量視頻、靠數據驅動提升泛化。所以我們比較早從 youtube 收集自動駕駛視頻，做了 GenAD（把自動駕駛建模為生成式預測與規劃問題的研究），訓練更泛化的視覺模型；后來的 Vista（強調高保真預測和動作可控性的自動駕駛世界模型）也基于視頻數據集繼續提升生成質量和 action control。

后來我覺得在學界繼續做空間有限，因為很多問題，比如視頻獲取和標注，對車企來說更容易。但我們當時從 youtube 找視頻訓練模型，算是比較早也比較大膽。

晚點：特斯拉那個世界模型是在你們之前發的吧？它算業界比較早的。

高深遠：對，它非常有前瞻性。自動駕駛領域里，我感覺學術界很多時候是走在特斯拉后面的。

晚點：你是 2025 年加入 GEAR 的嗎？當時 GEAR 當時也比較看重世界模型嗎？

高深遠：我 2024 年就和他們聊過，2025 年決定去。GEAR 當時確實比較看重世界模型，而且很多方向和我之前的研究很契合。

我之前一個工作叫 AdaWorld（用 latent action 從無標注視頻訓練可適配世界模型的方法），用的是 latent action（潛在動作，用隱藏表征表示視頻里的動作變化）。GEAR 的 Joel Jang（前 GEAR 研究科學家，近期已離職創業）、Seonghyeon Ye（ DreamZero 作者之一、KAIST AI 博士）也用過 latent action 訓練 policy。還有 Jim Fan（GEAR 聯合負責人）和 Joel 的研究品味跟我也比較契合，所以就想合作。

晚點：你們是怎么接觸上的？

高深遠：2024 年開學術會議時我就找過 Jim Fan。當時我還是博二，想多發一些一作論文，所以沒有直接參加大項目。后來也是開會逛論文海報時碰到了 Yuke Zhu（GEAR 聯合負責人、德克薩斯大學奧斯汀分校副教授），就發郵件約第二天聊。聊完發現他對我的背景也很感興趣，我之前面試也過了，所以后面就直接繼續合作了。

晚點：具體到這次的 DreamDojo、DreamZero，是誰發起的？你們想解決什么問題？

高深遠：GEAR 一條主線在做 policy，比如 GR00T N1、N2（英偉達的通用機器人策略模型系列）；另一條是 GR00T-Dreams（NVIDIA 用 Cosmos 從單張圖和語言指令生成合成軌跡數據），最早是 Joel Jang 發起的，之前也做過 DreamGen（用視頻世界模型生成機器人訓練數據的研究），用 video model 做 backbone、policy。

這個順序上是先用 video model 做 WAM，把 policy 的泛化性先做起來；后面是 DreamDojo 這種真正作為環境的世界模型，去支撐更完整的自我進化循環。前者可能兩三年內能成熟，后者可能需要 5 年左右，才會真正成為一個大的爆點。

晚點：但你前面說 policy、世界模型、agent 這個循環今年就可能初步跑通。為什么大的爆點又是 5 年后？

高深遠：今年可能是在單個任務上初步跑通，讓業內能看到跡象。但要讓 action-conditioned 世界模型和 reward model（獎勵模型，評估動作或狀態質量以指導策略優化的模型）在任何場景下都能很好模擬和泛化，還需要數據，也需要視頻基座模型繼續進步。

晚點：你做的是動作控制的視覺模型。這個方向是你加入前 GEAR 就在做，還是你去了之后形成的新方向？

高深遠：他們本來就在往這個方向想，我也一直覺得 policy 之后需要一個世界模擬器。也是在這個時間點，policy 已經發展到一定水平了，世界模型開始有機會真正和它結合起來做一些事。

Egocentric 擴數據源、Latent Action 跨本體和 DreamDojo 的測評

晚點：前面聊下來，我理解 DreamDojo 更像模擬器式的世界模型，DreamZero 更像改進過的策略，只是也帶有世界狀態，所以你們叫它世界動作模型（WAM）。具體講講 DreamDojo：它想解決什么問題，現在到什么程度了？

高深遠：DreamDojo 想做的是比較通用的世界模型 pre-train。目標是先訓練出一個可以開源的世界模型，讓別人微調后就能用起來。

過去世界模型大多只在單一數據集、有限場景和物體上訓練，我們想驗證能不能把 human egocentric video（人類第一視角視頻）里的泛化能力遷移到機器人世界模型上，并保留下來。實驗分析證明，這是可行的，相當于給后續世界模型的研發提供了一個起點。

另一個進展是實時性，而且兼顧泛化性。這樣它既能接遙操設備實時控制，也能在 policy 部署時更快預測不同 action 的后果，并用世界模型做搜索，提升模型性能。

晚點：你說能把 egocentric video 里的知識遷移到機器人上，之前的難點在哪？

高深遠：主要還是數據不夠，因為泛化能力要到一定數據量才能體現出來。數據少的時候，一方面有人和機器人的本體差異，另一方面物理規律的覆蓋也不夠。數據量上來之后，模型才會學到更通用的 knowledge，才能更好遷移到機器人上。

晚點：那你們這次用了接近 4.5 萬小時數據，這個量級是怎么確定的？

高深遠：首先我們做內部驗證，先確認方法是通的。之后假設不知道未來用戶會在哪些場景里用，所以我們就想盡可能把數據做大、覆蓋更多場景。做到 4.4 萬小時，基本就是我們當時訓練最終模型時能用上的數據都用上了。其實我們還沒有很好地調數據分布，如果進一步調整，遷移能力可能會更好。

晚點：處理這個量級的數據難嗎？

高深遠：世界模型的好處就是它可以吃下任何數據，對數據質量和標注的要求沒那么高，即使不做任何分布處理也都是合理的，只要有 action 就行。

我們還有一個工作叫 EgoScale（用大規模第一視角視頻訓練機器人策略的研究），也是基于這批數據來訓練 policy，但會做一些過濾。因為 policy 學的是最優決策，所以要做篩選，對數據質量也有要求。

晚點：那第三人稱視頻什么時候可以直接用來訓練世界模型？它的數據量更大、也更多樣。

高深遠：第三人稱視頻也能提供物理規律，只是和機器人最終使用的視角差得更遠。

現在的流程是先從 Cosmos 這樣的視頻基座模型出發，再做第一視角視頻的預訓練，最后在機器人數據上微調。那其實在 Cosmos 的預訓練階段已經用了這類數據。我們也發現，如果拿掉 Cosmos 這一步，直接開始預訓練，效果會變差。這說明第三人稱數據放在更早的預訓練階段是有用的。

晚點：那第三人稱視頻數據有必要用到第二個預訓練階段嗎？我理解這里的難點是，第三人稱視頻里的動作很難直接遷移到機器人本體上。但如果能解決這個問題，數據規模就可以大幅擴大，互聯網視頻也能被利用起來。

高深遠：我覺得可以試。直覺上，兩個預訓練階段甚至可以合并。類似 VLA 的訓練中，有些工作會把機器人數據和視覺問答數據一起訓，讓模型既能預測 action，也保留通用視覺知識。這對 general knowledge 的保持可能有幫助。然后目前的困難主要是計算量的問題，假如我們有足夠的資源，完全可以去試。

晚點：那應該會有人這么做。

高深遠：另外，作為一篇 research paper，我們更關注提出一個清晰的問題，并用有說服力的實驗設計解決它。所以沒有繼續擴大訓練范圍。

晚點：你們 DreamDojo 里用了 latent action，所以不用打動作標簽。這個實現難嗎？它是主流方法，還是比較新的方法？

高深遠：這方向我算是比較早在推的人之一。DreamDojo 某種程度上就是把我之前 AdaWorld 里驗證過的思路，scale up 到機器人和人類數據上：用 latent action 給無標簽視頻打上 action 標簽，再去預訓練世界模型。它最大的好處是簡單、通用，不太受本體和視角限制，有多少 video 就能利用多少 video，不會損失視頻數據的擴展性。

但我不確定它是不是最終路線。因為現在很多數據都有高精度標簽，如果跨本體又沒那么成問題，那 latent action 的必要性就會下降。它更像是一種能高效利用無標注視頻的辦法。

晚點：跨本體這件事對人或動物來說好像很自然。比如人失去雙臂后，可以用腳做很精細的操作。人本身似乎有適應新構形的能力。

高深遠：對。latent action 是一種有噪聲的 action 表示，不能很好描述每個具體本體，但相對所有本體來說，它是一個比較好的媒介。從它出發去映射到一個新本體，一般會更近。比如人失去雙手，也需要重新適應。但如果先有 latent action 這樣的先驗，再遷移到新的 action space，可能是更自然、更通用的起點。

但如果數據和本體都沒特別大障礙的話，就沒有必要再到 latent action 去繞一圈。

晚點：那肯定不用標簽會更省事，能用的數據也更多。

高深遠：但現在有標簽數據的增長也很快。

晚點：是因為現在打標簽很便宜嗎？

高深遠：對，以前采機器人數據，是實驗室里擺桌子、擺物體，采完重置，效率很低。

但現在采集形式已經變了。比如人在做家務或工作時，只要帶一些便攜外設，就能順帶拿到比較高精度的標簽，而且不影響本來的工作。再加上合成數據本身也能自帶標簽，所以整體上高質量帶標注數據會越來越容易拿到。

晚點：DreamDojo 對應的數據集 DreamDojo-HV 有計劃開放到開源社區嗎？

高深遠：會開源，但我們還想基于這套數據繼續做一些研究，應該會隨著后續成果再逐步開放。

晚點：DreamDojo 這次用的是傅利葉的 GR-1。本體選擇上，現在大家一般是怎么考慮的？我之前了解，宇樹 G1 好像用得更多。

高深遠：這個沒有特別考量。主要是我們之前有一些傅利葉 GR-1 的數據，在這個基礎上構造測試集更方便。

晚點：我好奇的是，以后本體可能會變得比較統一，這也是一個技術和商業機會。研究機構選擇本體時，一般會考慮哪些因素？

高深遠：首先會考慮故障率、易用性，以及有多少人在用。然后是它和我們 cross-embodiment data（跨本體數據，覆蓋不同身體結構并用于跨本體遷移訓練的數據）的接近程度。比如我們有人類數據，那最好它是帶靈巧手的本體。

晚點：關于 DreamDojo 的評估方式，前面說過現在沒有公開 Benchmark，所以你們自己做了 6 個 Benchmark。你們主要考察哪些能力？

高深遠：第一，預測未來是否真實、物理上是否合理；第二，被 action 的控制能力。

我們內部先用 GR-1 做了一批測試，初步看到遷移能力后，又用開源第一視角數據集 EgoDex（用于評測靈巧操作能力的開源第一視角數據集），驗證它在更多物體上的遷移是否成立。確認之后，再繼續加入更多人類數據，覆蓋更多環境和物體。雖然這次我們主要用 GR-1 做測試本體，但目標一直是做更通用的預訓練權重給整個社區。

晚點：所以它是跨本體的對吧？

高深遠：對，我們也提供了其他本體的實驗結果。這就是 latent action 的好處：比如是從人類視頻中學習，但遷移到一個假爪上，也是可以的。

晚點：你們測試里很多是泛化測試，也就是分布外數據。這個具體范圍是什么？因為最開始有 Cosmos 這個視頻基模，它按理說已經見過很多東西了。

高深遠：問題在于，一個基模被改造成 action control 的世界模型后，可能會損失部分泛化能力。我們加入 human pre-train（人類視頻預訓練）和 latent action，就是為了讓它在新環境下仍具備較好的泛化能力。

這里說的新環境，指的是機器人數據里沒有見過的環境。整個流程可以分成三階段：Cosmos 訓練、人類數據訓練、機器人數據訓練。只要機器人數據里沒見過的新物體和新環境，我們就叫它分布外。

晚點：那你們測過人類數據里也沒見過的新環境嗎？它能做嗎？

高深遠：我們 4.4 萬小時的人類數據量非常大，測試集里的物體大概率都出現過，或者至少有類似的。

某種程度上，語言模型和視頻模型發展到后面，很多原來意義上的分布外問題，都會變成分布內插值。對機器人數據來說，那些場景還是分布外；但對人類互聯網視頻來說都是分布內。結果是，人類視頻預訓練確實能明顯提升模型在機器人分布外場景中的泛化能力。

晚點：你們最后是用成功率、穩定性這些指標來考察嗎？

高深遠：我們也會看下游表現。世界模型能不能提升 policy 的成功率，本身就能反映它的可靠性。比如讓 policy 提出幾個 action，再由世界模型選出最優的那個去執行；如果世界模型足夠好，它應該每次都選到最好的 action，如果它很差，加不加它其實區別不大。

晚點：也就是說，這是一個控制變量，加上世界模型反饋后，policy 的成功率等指標應該提升。

高深遠：對。世界模型最終還是為了提升 policy，所以它的反饋好不好，最終要結合 policy 的表現來看。中間也可以看一些指標，比如它是否跟隨輸入 action、預測出來的未來是否足夠真實。

自己不掌握視頻基模，能做出有競爭力的世界模型嗎？

晚點：接下來你們準備怎么繼續發展 DreamDojo？

高深遠：具體細節先不展開了。長遠看，最重要的還是把自我進化的循環建起來。有人覺得只要一直做 policy 就夠了，但我還是認為世界模型很有必要，因為它能把 policy 和 agent 接成閉環。

這個循環一旦跑起來，就有機會突破物理時間限制。現在 physical AI 難做，一個重要原因就是它還沒有像 language agent 或 AlphaGo 那樣可持續迭代的虛擬世界。如果后面能有這樣的世界，具身智能就可以在虛擬環境里持續試錯和進化。

晚點：那你們的這個優化思路，是不是會需要和 GEAR 里做策略的團隊，如 DreamZero 那邊，非常緊密地合作？而且理論上像 SIMA、VLA 這些其他 policy 也都可以接進來。

高深遠：對，我們本來就是比較小的團隊，人員也有交叉。而且這個循環本身的接口是通用的，只要 action、文本和 video 這幾個模態能對齊，理論上都可以接進來。

晚點：你剛剛說有人相信只做策略就行。為什么會這么想？

高深遠：我理解他們主要是覺得，policy 主要學專家數據，但世界模型還要模擬各種非專家 action 的后果，難度更高。不過我覺得，世界模型不需要一開始就做到完美，只要它在一些場景里能提供有效反饋，就可以開始幫助 policy，然后就能循環上升。

晚點：如果你相信的路線變得更主流，具身智能創業公司，或者專門做世界模型的創業公司，還有多大機會參與？世界模型聽起來很耗資源，尤其視頻數據和算力，是不是只有大公司才有機會？

高深遠：我覺得也沒有那么絕望。隨著數據供應商的競爭、GPU 和模型效率提升，這件事會變成更多人都能參與的方向，當然最后可能還是少數幾家勝出。

這循環里有很多組件，不只是世界模型本身，還包括 reward agent（獎勵智能體，負責評估策略行為質量并提供優化信號的模塊）、policy 和具體場景驗證。創業公司可以先在自己擅長的 domain 里，小規模地把路線驗證通；只要方向對、驗證得快，靠 scaling law 后面仍然有機會推起來。

晚點：Cosmos 是英偉達自己的視頻生成模型。你們基于它做人類數據預訓練，再做機器人數據。如果這個環節分開，比如創業公司不掌握視頻生成基模，只做你們后面的流程，會影響效果嗎？

高深遠：有影響。基座模型如果自己掌握，就更了解它的預訓練分布。像 Cosmos 這種偏 physical AI 的模型，對機器人和自動駕駛視頻會更合適，在 infra 上也對后續訓練有更多支持。創業公司當然可以跳過這一步，只做人類數據和機器人數據訓練，成本會低很多；但如果拿不到最強的預訓練模型，整體節奏和競爭力還是會受影響。

晚點：現在 DreamDojo 的速度會是問題嗎？還是 DreamZero 才有這個問題？

高深遠：我覺得都不是大問題。一方面還有很多工程優化空間，另一方面 video model 的提速本來就是整個視頻生成領域都在推進的主線，不只是 robotics 在關心。所以它和大方向是一致的，后面大概率會持續被解決。

晚點：你博士畢業之后計劃去英偉達。為什么做這個選擇？

高深遠：我選擇去工業界，是因為很多路線已經看到成功跡象了，接下來更重要的是在更大規模上把它做出來。學校更適合原創性探索，但現階段通往 physical AGI 已經有不少成熟路線，關鍵更在于數據、算力、訓練目標和團隊能否對齊。

晚點：接下來你自己最想探索的方向是什么？

高深遠：還是 DreamDojo 這類 action-conditioned 世界模型。我的最終目標是把自我進化的循環真正跑起來，而現在還有一些泛化性的瓶頸。現在很多工作還停留在單任務驗證，但既然用了語言和視頻這些基模，核心價值就不該只是把單任務跑通，而是推向更多任務。所以接下來我最關注的，還是世界模型和 World Action Model 的泛化性上限。

題圖來源：《盜夢空間》

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.