網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，全球?個“事件級預(yù)測”具身智能世界模型來了！

2026-05-29 15:00:13　來源: 量子位

北京舉報

分享至

夢瑤發(fā)自凹非寺
量子位 | 公眾號 QbitAI

讓機器人把杯子遞過去——

這個看似簡單的任務(wù)，對當前的具身大模型來說，卻是一場逐幀填空的考試：

預(yù)測0.1秒后手在哪、0.2秒后手在哪……

把一個完整動作切成幾十張幾乎雷同的畫面，讓模型一幀一幀去學。

結(jié)果，模型記住的是「手指每幀挪幾毫米」，而不是「把杯子抓住」這個目標，換個杯子、換張桌子，節(jié)奏稍變，立刻翻車！！

剛剛，自變量機器人團隊帶來全新解法——

發(fā)布全球首個「事件級預(yù)測」具身智能世界模型WALL-WM。

WALL-WM把世界模型的預(yù)測單位從時間幀換成了語義事件：

模型不再問0.1秒后是什么樣，而是直接想象抓住杯子那一刻是什么樣，跳過中間所有冗余幀，并基于這個想象同步生成抵達它的動作。

由于「事件」本身就是跨場景、跨物體的通用語義抽象，WALL-WM在跨場景泛化上也展現(xiàn)出明顯更穩(wěn)的表現(xiàn)。目前，這一模型已在論文《WALL-WM: Carving World Action Modeling at the Event Joints》中發(fā)布。

誒，這下好了。

以后小機器人們干活兒，也能更像人類一樣抓重點，靈活應(yīng)對物理世界的各種抓馬情況了！

從按幀學動作，到按「事件」理解世界

這幾年，主流VLA模型基本都在沿著一條路往前走：

給模型一幀當前畫面，再加一句語言指令，讓它預(yù)測接下來一段「固定長度」的動作塊。

這個做法當然很工程化，也確實方便訓練，但問題在于真實世界的機器人動作，并不會乖乖按照固定時間窗口發(fā)生。

比如讓機器人抓起一個杯子，它里面至少包含接近、接觸、閉合夾爪、提起、移動、放下幾個階段。

每個階段的物理狀態(tài)都不一樣，接觸前和接觸后更是完全不同的控制問題。

針對這個bug，自變量機器人在論文中提出了一個非常「反常識」的行業(yè)判斷——

文本、視覺、動作這三類信息，其實是天然沒辦法「完全對齊」的……（doge）

論文中提到，文本、視覺、動作在高維空間里有不同的「流形幾何」，也有完全不同的「時間尺度」。

文本是高層、低熵的語義意圖；視覺是連續(xù)演化的高維觀察；動作則被物理世界強約束，對接觸狀態(tài)、時間精度和微小擾動都極其敏感。

如果直接把三者壓進同一個共享空間，預(yù)訓練表示很容易偏離原本的先驗幾何！！

所以說，這也是為啥目前行業(yè)內(nèi)很多VLA在真機上視覺-語言-動作對齊的表現(xiàn)，遠不如其底座VLM應(yīng)有的?平…..

既然傳統(tǒng)VLA問題這么多，自變量團隊也重新追問了一個更為根本的問題：機器人到底該按什么單位學會一個動作？

基于這個思路，團隊出了WALL-WM世界模型，讓機器人按event-centric的方式去訓練和執(zhí)行。

所謂的event-centric，簡單說就是把機器人任務(wù)切在真正有語義、有物理動作變化的「事件邊界」上，然后在這些事件數(shù)據(jù)上進行模型訓練。

比如伸手、抓取、抬升、移位、放置，都可以看成一個個圍繞動作展開的語義事件。

它能被語言說清楚，也能被視頻完整記錄，還能落到機器人的動作軌跡上，這樣就可以把語言、畫面和動作真正串了起來～

WALL-WM泛化能力更強的關(guān)鍵也就在這里：讓機器人圍繞事件理解世界變化，再把這種理解轉(zhuǎn)成可執(zhí)行動作。

而這，才是具身智能「世界模型」應(yīng)有的形態(tài)。

WALL-WM的核心鏈路：先預(yù)演，再執(zhí)行

具體來說，WALL-WM做的不是直接從畫面生成動作。

而是先讓模型理解「下一個事件會讓世界怎么變」，再把這種變化翻譯成機器人該執(zhí)行的軌跡。

背后是一整套從感知到控制的路徑重構(gòu)，自變量團隊將其拆成了三層：

第一層，是事件指令入口。

其作用很直接，就是告訴模型「下一步要做什么」，比如抓起杯子、放進籃子、把積木擺到指定位置。

第二層，是事件世界模型。

模型會圍繞這個事件，去預(yù)演接下來畫面里的變化：物體會怎么動，場景會怎么變，機械臂又該如何參與其中。

第三層，是多視角時空融合。

機器人看到的往往不止一個角度，頭部相機、腕部相機提供的是不同位置的信息。WALL-WM會把這些視角統(tǒng)一起來，讓模型在執(zhí)行動作之前，先把現(xiàn)場看得更完整。

不僅如此，在這個架構(gòu)中WALL-WM還用幾組關(guān)鍵設(shè)計，把這條鏈路變成了一個盡量保住視頻先驗、又能長出動作能力的系統(tǒng)。

同?個基座，兩種推理模式

在執(zhí)行階段，WALL-WM不會只生成一段死板的固定動作，而是讓同一套模型權(quán)重可以跑出兩種推理模式。

首先就是事件模式（Event Mode）。

當上層規(guī)劃器已經(jīng)把任務(wù)拆好，模型就可以直接根據(jù)這個事件描述，輸出一段長度可變的動作，這個模式更貼近WALL-WM的核心思想：動作不必被硬切成固定窗口，而是順著語義事件自然展開。

另一種是統(tǒng)一模式（Unified mode）。

當沒有外部規(guī)劃器，機器人需要自己一邊看、一邊想、一邊控制時，VLM會結(jié)合當前視覺輸入和任務(wù)指令，在線生成中間推理，再把結(jié)果交給動作模型輸出「固定長度」的動作塊。

這個模式更適合實時閉環(huán)控制，因為它能保持穩(wěn)定的控制頻率。

這兩種推理模式的關(guān)鍵在于，其共享同一套權(quán)重，執(zhí)行過程中還能按動作塊切換，不需要為了不同場景重新訓練模型，所以模型的用法也更靈活。

它既能接在更大的機器人系統(tǒng)后面，專門負責把規(guī)劃好的事件穩(wěn)定執(zhí)行出來，也能自己完成從看懂任務(wù)、判斷下一步，到生成動作的完整流程。

視頻模型和動作模型分工生長

不僅如此，WALL-WM沒有直接把視頻模型改成動作模型，而是把兩條能力「拆開」來長——

讓機器人先預(yù)演世界會怎么變，再決定自己該怎么動。

具體來說，視頻模型會承載互聯(lián)網(wǎng)視頻訓練出來的動態(tài)先驗，負責理解物體怎么動、場景怎么變。

而動作模型從零初始化，專門學習如何把這些視覺變化翻譯成機器人軌跡。

兩者在每一層做單向耦合：動作流讀取視頻流的視覺證據(jù)，視頻流保留原本的動態(tài)先驗，避免被動作數(shù)據(jù)過早「帶偏」。

這樣一來，模型既能守住視頻基座已有的世界理解能力，又能讓動作能力在大規(guī)模訓練中持續(xù)增長。

而這，正是絕?多數(shù)VLA在?規(guī)模訓練時做不到的～

幾何感知的多視角融合

大家都知道，現(xiàn)實生活中大多機器人通常不止一個攝像頭：一般是頂視看全局，腕部相機看手邊細節(jié)。

但事實上多視角并不會天然對齊，簡單做跨視角注意力，模型很容易把它學成特征混合，看起來相關(guān)就連在一起，卻未必符合真實空間關(guān)系，于是WALL-WM用了兩個機制來解決——

一個是視錐掩碼。

它會根據(jù)相機標定信息，判斷兩個圖像塊在三維空間里有沒有可能看到同一片區(qū)域，物理上對不上的關(guān)聯(lián)，直接從注意力路徑里切掉，這樣一來，模型跨視角看過去的地方，至少先符合真實世界的幾何關(guān)系。

另一個是管狀掩碼。

它會隨機遮掉某個視角里一段連續(xù)的時空區(qū)域，讓模型不能只靠單一視角內(nèi)部的時間信息補答案，只能從其他相機里找線索。

一個限制錯誤連接，一個制造跨視角需求，配合免標定、此外可學習的相機旋轉(zhuǎn)位置編碼，天然?持多本體多視角?規(guī)模混合訓練。

這樣一來，跨視角注意力就從可有可無的能力，變成訓練中反復(fù)使用的幾何對應(yīng)能力。

階梯式思維鏈解碼

在真實物理場景中，機器人做復(fù)雜任務(wù)時，往往需要「想一想」具體怎么做。

CoT能提升這類決策質(zhì)量，但傳統(tǒng)逐token生成太慢，對聊天模型來說慢一點還能接受；對機器人來說動作控制可等不起…

針對這個問題，WALL-WM給出的解法是：用Staircase Layer-Relay CoT Decoding（階梯式思維鏈解碼），保留、可讀的思維鏈，同時改造解碼方式。

把原本一層層、一個token接一個token的串行過程，拆成「低層只跑一次，高層階梯式展開」。

具體來說，底層負責抽取共用的推理狀態(tài)，只做一次；后面的多個思維token則在高層并行完成。

它生成的仍是連續(xù)CoT latent，但這些latent可以通過凍結(jié)LLM還原為文本推理軌跡，因此保留了一定可解釋性，同時減少逐token解碼帶來的延遲。

這樣一來，可解釋性與實時性，第?次不??選?。

事件級世界模型背后，是一次從數(shù)據(jù)到部署的系統(tǒng)級重構(gòu)

WALL-WM真正想解決的，遠不止模型結(jié)構(gòu)的事件級改造。

背后真正撐起這套能力的，還有一套從數(shù)據(jù)采集、層級標注到采樣訓練的一整套「系統(tǒng)工程」。

在數(shù)據(jù)結(jié)構(gòu)上，WALL-WM沒有只依賴機器人真機數(shù)據(jù)，而是搭了一個數(shù)據(jù)金字塔。

底層是百萬級網(wǎng)絡(luò)通用視頻，用來補足開放世界里的視覺和運動先驗；再往上，是人類動作視頻、第一視角視頻、公開機器人數(shù)據(jù)、自采視頻-動作數(shù)據(jù)。

而最頂端，才是真機接管、糾錯和恢復(fù)數(shù)據(jù)。

每?層都是對上?層某條約束的可控放松，越往上越貼近真機部署，越往下越接近開放世界的視覺先驗。

不僅如此，為了讓事件真正進入訓練，WALL-WM沒有把一條機器人軌跡當成一整段視頻粗暴喂給模型。

而是采用了四級層級化標注+雙聚類采樣的方式，把每條軌跡拆成任務(wù)、子任務(wù)、動作、片段四層，這樣模型看到的就不再是混在一起的長序列，而是一個個邊界更清楚的行為單元。

論文里還有一個很值得注意的發(fā)現(xiàn)，那就是當文本描述按照動作邊界被切分后，語言分布和視覺-語言聯(lián)合分布都變得更均衡了。

這也意味著，原本容易被淹沒在長任務(wù)里的稀有指令、特殊場景組合，會更自然地在訓練階段暴露給模型。

這樣的方式不僅幫助模型理解動作邊界，也順手改善了數(shù)據(jù)分布，讓長尾樣本更容易被訓練到～

除了模型和數(shù)據(jù)，WALL-WM還專門補了一塊底層訓練系統(tǒng)。

目前事件級建模要同時處理視頻、動作、多視角和長序列，訓練成本非常高，如果系統(tǒng)撐不住，方法再好也很難真正放大！

而自變量團隊給出的解法是，采用分布式「Muon」來提升收斂和穩(wěn)定性（DMuon），并用多事件打包，把多個事件塞進同一條長序列里訓練，降低單條樣本帶來的計算浪費。

到了部署階段，再通過蒸餾減少去噪步數(shù)，用FP8量化降低顯存和推理成本，讓這套大模型更接近機器人實時控制所需的延遲，讓模型更適合實時控制。

實驗結(jié)果

在具體實驗環(huán)節(jié)，WALL-WM的價值則一步體現(xiàn)在大規(guī)模「真機泛化能力」上。

其不僅能執(zhí)行固定模板任務(wù)，還能支持不同粒度的event-centric文本輸入，不僅如此，在新指令、新物體、新場景和新任務(wù)、新本體里繼續(xù)完成動作推理與執(zhí)行。

Embodied Video Generation：相比Wan2.1/Wan2.2，WALL-WM在Motion Quality、Semantic Consistency、Physical Plausibility三個具身相關(guān)維度全面領(lǐng)先：

3D Awareness（CO3Dv2）：在Point Error與Depth Error上優(yōu)于WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2：

真機Core15 L1基準：基礎(chǔ)任務(wù)、推理任務(wù)、靈巧操作、泛化場景下取得的任務(wù)完成分數(shù)，均顯著超過π0.5、DreamZero，在抽象指令設(shè)定下是當前完成度最高的L1模型之一：

論文開頭，自變量機器人團隊引用了柏拉圖《斐德羅篇》中的一句話——

依乎天理，因其固然。

放到整個具身智能行業(yè)里來看，這句話很值得深思，也恰恰點出了WALL-WM的核心——

物理世界的真實任務(wù)，從來不會按照固定時間窗口整齊發(fā)生，它更像一串自然銜接的事件，伸手、接觸、抓取、移動、放下，每一個關(guān)鍵變化，都對應(yīng)著動作里的自然關(guān)節(jié)。

而WALL-WM做的，就是讓模型沿著這些「事件關(guān)節(jié)」去理解世界、預(yù)測變化、生成動作。

而這，也給機器人的泛化能力找到了一個更自然的支點：

當語言變了、物體變了、場景變了、任務(wù)組合變了甚至本體變了，機器人依然可以順著事件邊界判斷，現(xiàn)在進行到哪一步，下一步世界會怎么變，動作又該如何落下去。

目前，具身智能行業(yè)的競爭正在從跑分和Demo演示走向真實部署，行業(yè)比拼也會從誰看起來更會動，走向「誰更能理解變化、組織行動、穩(wěn)定泛化」。

而自變量機器人這一次，已經(jīng)用一套自洽的工程化范式，提前把這條路的領(lǐng)先成果擺了出來。

[1]GitHub：https://github.com/X-Square-Robot/wall-x

[2]項?主?：
https://x2robot.com/pages/wm

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.