夢瑤 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
讓機器人把杯子遞過去——
這個看似簡單的任務(wù),對當前的具身大模型來說,卻是一場逐幀填空的考試:
預(yù)測0.1秒后手在哪、0.2秒后手在哪……
把一個完整動作切成幾十張幾乎雷同的畫面,讓模型一幀一幀去學。
結(jié)果,模型記住的是「手指每幀挪幾毫米」,而不是「把杯子抓住」這個目標,換個杯子、換張桌子,節(jié)奏稍變,立刻翻車!!
剛剛,自變量機器人團隊帶來全新解法——
發(fā)布全球首個「事件級預(yù)測」具身智能世界模型WALL-WM。
![]()
WALL-WM把世界模型的預(yù)測單位從時間幀換成了語義事件:
模型不再問0.1秒后是什么樣,而是直接想象抓住杯子那一刻是什么樣,跳過中間所有冗余幀,并基于這個想象同步生成抵達它的動作。
由于「事件」本身就是跨場景、跨物體的通用語義抽象,WALL-WM在跨場景泛化上也展現(xiàn)出明顯更穩(wěn)的表現(xiàn)。目前,這一模型已在論文《WALL-WM: Carving World Action Modeling at the Event Joints》中發(fā)布。
誒,這下好了。
以后小機器人們干活兒,也能更像人類一樣抓重點,靈活應(yīng)對物理世界的各種抓馬情況了!
從按幀學動作,到按「事件」理解世界
這幾年,主流VLA模型基本都在沿著一條路往前走:
給模型一幀當前畫面,再加一句語言指令,讓它預(yù)測接下來一段「固定長度」的動作塊。
這個做法當然很工程化,也確實方便訓練,但問題在于真實世界的機器人動作,并不會乖乖按照固定時間窗口發(fā)生。
比如讓機器人抓起一個杯子,它里面至少包含接近、接觸、閉合夾爪、提起、移動、放下幾個階段。
每個階段的物理狀態(tài)都不一樣,接觸前和接觸后更是完全不同的控制問題。
針對這個bug,自變量機器人在論文中提出了一個非常「反常識」的行業(yè)判斷——
文本、視覺、動作這三類信息,其實是天然沒辦法「完全對齊」的……(doge)
![]()
論文中提到,文本、視覺、動作在高維空間里有不同的「流形幾何」,也有完全不同的「時間尺度」。
文本是高層、低熵的語義意圖;視覺是連續(xù)演化的高維觀察;動作則被物理世界強約束,對接觸狀態(tài)、時間精度和微小擾動都極其敏感。
如果直接把三者壓進同一個共享空間,預(yù)訓練表示很容易偏離原本的先驗幾何!!
所以說,這也是為啥目前行業(yè)內(nèi)很多VLA在真機上視覺-語言-動作對齊的表現(xiàn),遠不如其底座VLM應(yīng)有的?平…..
既然傳統(tǒng)VLA問題這么多,自變量團隊也重新追問了一個更為根本的問題:機器人到底該按什么單位學會一個動作?
基于這個思路,團隊出了WALL-WM世界模型,讓機器人按event-centric的方式去訓練和執(zhí)行。
所謂的event-centric,簡單說就是把機器人任務(wù)切在真正有語義、有物理動作變化的「事件邊界」上,然后在這些事件數(shù)據(jù)上進行模型訓練。
比如伸手、抓取、抬升、移位、放置,都可以看成一個個圍繞動作展開的語義事件。
它能被語言說清楚,也能被視頻完整記錄,還能落到機器人的動作軌跡上,這樣就可以把語言、畫面和動作真正串了起來~
WALL-WM泛化能力更強的關(guān)鍵也就在這里:讓機器人圍繞事件理解世界變化,再把這種理解轉(zhuǎn)成可執(zhí)行動作。
而這,才是具身智能「世界模型」應(yīng)有的形態(tài)。
WALL-WM的核心鏈路:先預(yù)演,再執(zhí)行
具體來說,WALL-WM做的不是直接從畫面生成動作。
而是先讓模型理解「下一個事件會讓世界怎么變」,再把這種變化翻譯成機器人該執(zhí)行的軌跡。
背后是一整套從感知到控制的路徑重構(gòu),自變量團隊將其拆成了三層:
![]()
第一層,是事件指令入口。
其作用很直接,就是告訴模型「下一步要做什么」,比如抓起杯子、放進籃子、把積木擺到指定位置。
第二層,是事件世界模型。
模型會圍繞這個事件,去預(yù)演接下來畫面里的變化:物體會怎么動,場景會怎么變,機械臂又該如何參與其中。
第三層,是多視角時空融合。
機器人看到的往往不止一個角度,頭部相機、腕部相機提供的是不同位置的信息。WALL-WM會把這些視角統(tǒng)一起來,讓模型在執(zhí)行動作之前,先把現(xiàn)場看得更完整。
不僅如此,在這個架構(gòu)中WALL-WM還用幾組關(guān)鍵設(shè)計,把這條鏈路變成了一個盡量保住視頻先驗、又能長出動作能力的系統(tǒng)。
同?個基座,兩種推理模式
在執(zhí)行階段,WALL-WM不會只生成一段死板的固定動作,而是讓同一套模型權(quán)重可以跑出兩種推理模式。
首先就是事件模式(Event Mode)。
當上層規(guī)劃器已經(jīng)把任務(wù)拆好,模型就可以直接根據(jù)這個事件描述,輸出一段長度可變的動作,這個模式更貼近WALL-WM的核心思想:動作不必被硬切成固定窗口,而是順著語義事件自然展開。
另一種是統(tǒng)一模式(Unified mode)。
當沒有外部規(guī)劃器,機器人需要自己一邊看、一邊想、一邊控制時,VLM會結(jié)合當前視覺輸入和任務(wù)指令,在線生成中間推理,再把結(jié)果交給動作模型輸出「固定長度」的動作塊。
這個模式更適合實時閉環(huán)控制,因為它能保持穩(wěn)定的控制頻率。
這兩種推理模式的關(guān)鍵在于,其共享同一套權(quán)重,執(zhí)行過程中還能按動作塊切換,不需要為了不同場景重新訓練模型,所以模型的用法也更靈活。
它既能接在更大的機器人系統(tǒng)后面,專門負責把規(guī)劃好的事件穩(wěn)定執(zhí)行出來,也能自己完成從看懂任務(wù)、判斷下一步,到生成動作的完整流程。
視頻模型和動作模型分工生長
不僅如此,WALL-WM沒有直接把視頻模型改成動作模型,而是把兩條能力「拆開」來長——
讓機器人先預(yù)演世界會怎么變,再決定自己該怎么動。
具體來說,視頻模型會承載互聯(lián)網(wǎng)視頻訓練出來的動態(tài)先驗,負責理解物體怎么動、場景怎么變。
而動作模型從零初始化,專門學習如何把這些視覺變化翻譯成機器人軌跡。
兩者在每一層做單向耦合:動作流讀取視頻流的視覺證據(jù),視頻流保留原本的動態(tài)先驗,避免被動作數(shù)據(jù)過早「帶偏」。
這樣一來,模型既能守住視頻基座已有的世界理解能力,又能讓動作能力在大規(guī)模訓練中持續(xù)增長。
而這,正是絕?多數(shù)VLA在?規(guī)模訓練時做不到的~
幾何感知的多視角融合
大家都知道,現(xiàn)實生活中大多機器人通常不止一個攝像頭:一般是頂視看全局,腕部相機看手邊細節(jié)。
但事實上多視角并不會天然對齊,簡單做跨視角注意力,模型很容易把它學成特征混合,看起來相關(guān)就連在一起,卻未必符合真實空間關(guān)系,于是WALL-WM用了兩個機制來解決——
一個是視錐掩碼。
它會根據(jù)相機標定信息,判斷兩個圖像塊在三維空間里有沒有可能看到同一片區(qū)域,物理上對不上的關(guān)聯(lián),直接從注意力路徑里切掉,這樣一來,模型跨視角看過去的地方,至少先符合真實世界的幾何關(guān)系。
另一個是管狀掩碼。
它會隨機遮掉某個視角里一段連續(xù)的時空區(qū)域,讓模型不能只靠單一視角內(nèi)部的時間信息補答案,只能從其他相機里找線索。
![]()
一個限制錯誤連接,一個制造跨視角需求,配合免標定、此外可學習的相機旋轉(zhuǎn)位置編碼,天然?持多本體多視角?規(guī)模混合訓練。
這樣一來,跨視角注意力就從可有可無的能力,變成訓練中反復(fù)使用的幾何對應(yīng)能力。
階梯式思維鏈解碼
在真實物理場景中,機器人做復(fù)雜任務(wù)時,往往需要「想一想」具體怎么做。
CoT能提升這類決策質(zhì)量,但傳統(tǒng)逐token生成太慢,對聊天模型來說慢一點還能接受;對機器人來說動作控制可等不起…
針對這個問題,WALL-WM給出的解法是:用Staircase Layer-Relay CoT Decoding(階梯式思維鏈解碼),保留、可讀的思維鏈,同時改造解碼方式。
把原本一層層、一個token接一個token的串行過程,拆成「低層只跑一次,高層階梯式展開」。
![]()
具體來說,底層負責抽取共用的推理狀態(tài),只做一次;后面的多個思維token則在高層并行完成。
它生成的仍是連續(xù)CoT latent,但這些latent可以通過凍結(jié)LLM還原為文本推理軌跡,因此保留了一定可解釋性,同時減少逐token解碼帶來的延遲。
這樣一來,可解釋性與實時性,第?次不??選?。
事件級世界模型背后,是一次從數(shù)據(jù)到部署的系統(tǒng)級重構(gòu)
WALL-WM真正想解決的,遠不止模型結(jié)構(gòu)的事件級改造。
背后真正撐起這套能力的,還有一套從數(shù)據(jù)采集、層級標注到采樣訓練的一整套「系統(tǒng)工程」。
在數(shù)據(jù)結(jié)構(gòu)上,WALL-WM沒有只依賴機器人真機數(shù)據(jù),而是搭了一個數(shù)據(jù)金字塔。
底層是百萬級網(wǎng)絡(luò)通用視頻,用來補足開放世界里的視覺和運動先驗;再往上,是人類動作視頻、第一視角視頻、公開機器人數(shù)據(jù)、自采視頻-動作數(shù)據(jù)。
而最頂端,才是真機接管、糾錯和恢復(fù)數(shù)據(jù)。
每?層都是對上?層某條約束的可控放松,越往上越貼近真機部署, 越往下越接近開放世界的視覺先驗。
![]()
不僅如此,為了讓事件真正進入訓練,WALL-WM沒有把一條機器人軌跡當成一整段視頻粗暴喂給模型。
而是采用了四級層級化標注+雙聚類采樣的方式,把每條軌跡拆成任務(wù)、子任務(wù)、動作、片段四層,這樣模型看到的就不再是混在一起的長序列,而是一個個邊界更清楚的行為單元。
論文里還有一個很值得注意的發(fā)現(xiàn),那就是當文本描述按照動作邊界被切分后,語言分布和視覺-語言聯(lián)合分布都變得更均衡了。
這也意味著,原本容易被淹沒在長任務(wù)里的稀有指令、特殊場景組合,會更自然地在訓練階段暴露給模型。
這樣的方式不僅幫助模型理解動作邊界,也順手改善了數(shù)據(jù)分布,讓長尾樣本更容易被訓練到~
除了模型和數(shù)據(jù),WALL-WM還專門補了一塊底層訓練系統(tǒng)。
目前事件級建模要同時處理視頻、動作、多視角和長序列,訓練成本非常高,如果系統(tǒng)撐不住,方法再好也很難真正放大!
而自變量團隊給出的解法是,采用分布式「Muon」來提升收斂和穩(wěn)定性(DMuon),并用多事件打包,把多個事件塞進同一條長序列里訓練,降低單條樣本帶來的計算浪費。
到了部署階段,再通過蒸餾減少去噪步數(shù),用FP8量化降低顯存和推理成本,讓這套大模型更接近機器人實時控制所需的延遲,讓模型更適合實時控制。
實驗結(jié)果
在具體實驗環(huán)節(jié),WALL-WM的價值則一步體現(xiàn)在大規(guī)模「真機泛化能力」上。
其不僅能執(zhí)行固定模板任務(wù),還能支持不同粒度的event-centric文本輸入,不僅如此,在新指令、新物體、新場景和新任務(wù)、新本體里繼續(xù)完成動作推理與執(zhí)行。
- Embodied Video Generation:相比Wan2.1/Wan2.2,WALL-WM在Motion Quality、Semantic Consistency、Physical Plausibility三個具身相關(guān)維度全面領(lǐng)先:
![]()
- 3D Awareness(CO3Dv2):在Point Error與Depth Error上優(yōu)于WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2:
![]()
- 真機Core15 L1基準:基礎(chǔ)任務(wù)、推理任務(wù)、靈巧操作、泛化場景下取得的任務(wù)完成分數(shù),均顯著超過π0.5、DreamZero,在抽象指令設(shè)定下是當前完成度最高的L1模型之一:
![]()
論文開頭,自變量機器人團隊引用了柏拉圖《斐德羅篇》中的一句話——
依乎天理,因其固然。
![]()
放到整個具身智能行業(yè)里來看,這句話很值得深思,也恰恰點出了WALL-WM的核心——
物理世界的真實任務(wù),從來不會按照固定時間窗口整齊發(fā)生,它更像一串自然銜接的事件,伸手、接觸、抓取、移動、放下,每一個關(guān)鍵變化,都對應(yīng)著動作里的自然關(guān)節(jié)。
而WALL-WM做的,就是讓模型沿著這些「事件關(guān)節(jié)」去理解世界、預(yù)測變化、生成動作。
而這,也給機器人的泛化能力找到了一個更自然的支點:
當語言變了、物體變了、場景變了、任務(wù)組合變了甚至本體變了,機器人依然可以順著事件邊界判斷,現(xiàn)在進行到哪一步,下一步世界會怎么變,動作又該如何落下去。
目前,具身智能行業(yè)的競爭正在從跑分和Demo演示走向真實部署,行業(yè)比拼也會從誰看起來更會動,走向「誰更能理解變化、組織行動、穩(wěn)定泛化」。
而自變量機器人這一次,已經(jīng)用一套自洽的工程化范式,提前把這條路的領(lǐng)先成果擺了出來。
[1]GitHub:https://github.com/X-Square-Robot/wall-x
[2]項?主?:
https://x2robot.com/pages/wm
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.