henry 發自 凹非寺
量子位 | 公眾號 QbitAI
具身智能火了快兩年,現在,終于有團隊富裕到拿真機數據去砸預訓練了。
而且一砸,就是17800小時。
這是啥概念?差不多相當于一臺機器人,連續兩年、一天24小時不停地被人類遙操作。
當所有人都以為真機數據是奢侈品,難以scaling,只能放在最后的微調階段時。
剛剛,上海創智學院副教授、智元機器人首席科學家羅劍嵐帶隊,發布全球最大規模的開源預訓練具身世界模型——
τ0-World Model(τ0-WM)。
![]()
整個τ0-WM參數量達到5B,預訓練數據規模高達約3萬小時。其中,真機遙操作數據第一次成了絕對主力,占到了1.78萬小時。
而3萬小時的預訓練數據,是目前全球開源預訓練具身世界模型中最大的。
τ0-WM不僅能像其他世界模型那樣預測未來畫面、生成動作。
更重要的是,它還結合了測試時計算(Test-Time Computation),讓機器人在執行前對多個候選動作進行排序,選出最優方案,質量不夠就調用模擬器修正后再執行。
基于這套方法;τ0-WM在四個長程精細操作任務,包括Toolbox(工具收納)、School Bag(書包裝物)、Badminton(羽毛球裝盒)和Faucet(水管接頭對接)的平均成功率超過了對標π0.5和Fast-WAM。
![]()
可以說,羅劍嵐團隊此前在后訓練方面的持續投入,不僅攢出了足夠規模的真機數據,也攢出了把這些數據用于大規模預訓練的經驗。
預訓練和后訓練這兩條線,終于對齊了。
提議、模擬、評估,然后行動
過去幾年,驅動機器人實現感知與控制的主流范式,大多是一種反應式的端到端策略:
神經網絡看到畫面,立刻輸出動作。
這種類似于人類“條件反射”的方式,在抓取、放置等標準任務里已經非常成功。
但就像人類其實并不完全依賴肌肉記憶一樣,機器人在面對接觸密集、長程跨度、或者存在嚴重遮擋的復雜操作時,單純依靠“看見場景就輸出動作”的方式,也很容易導致不可逆的錯誤。
很多時候,一步錯,后面可能就全錯了。
所以,和許多世界模型方法一樣,τ0-WM選擇讓機器人在行動之前,先在腦子里“想象”一下:
如果自己執行了這個動作,未來會發生什么,環境會怎么變化。
但τ0-WM特別的地方在于,它不只“想一次”。
為了讓機器人能夠三思而后行,研究引入了Test-Time Computation(測試時計算),讓機器人在真正執行前,可以多花一點時間,在內部“虛擬沙盤”里并行想象很多次,反復比較,甚至主動糾錯。
也就是說,τ0-WM讓機器人不再只是看到畫面就立刻出手,而是像人一樣,先在腦子里盤一遍哪種路線更靠譜,再決定真正怎么做。
某種程度上,這其實是在讓機器人學會一種“慢思考”。
![]()
具體來說,τ0-WM的在線推理,分成三步。
第一步,提議。
首先,視頻動作模型(VAM)會根據當前多視角觀測、語言指令以及機器人狀態,一次性采樣出多組候選動作,同時生成對應的模糊未來畫面。
這相當于機器人先在腦子里快速閃過幾種可能的做法。
第二步,推演。
其次,動作條件視頻模擬器會針對每組候選動作,進一步生成對應的多視角未來畫面。
之所以是多視角,是因為真實機器人操作里,正面視角經常會被機械臂或物體擋住,所以模型必須還能“腦補”側面、頂部等其他視角下的未來狀態,才能真正判斷動作后果。
第三步,評估與修正。
最后,系統會先用RCS(Re-denoising Consistency Score)給動作打分:把候選動作重新加噪,再丟回模型重新去噪,觀察重建誤差。
誤差越小,說明這個動作越接近模型訓練時學到的高質量動作分布,也越靠譜。
但如果最優動作的分數依然不夠高,就會觸發第二層機制LAR(Low-quality Action Rectification)。
系統會把所有候選動作送進視頻模擬器,預測對應未來狀態以及任務進度,挑出“任務推進效果最好”的未來畫面,再讓VAM基于這個“最優未來”重新生成動作。
最終,模型基于這三步走,輸出最好的動作。
值得一提的是,雖然很多世界模型在訓練時也會預測未來,但部署時為了推理速度,往往會把未來預測模塊直接去掉。
τ0-WM則堅持在推理階段保留“顯式未來想象”,并把這些未來畫面真正用于后續動作的打分、篩選與修正。
也就是說,對τ0-WM而言,“想象未來”不是訓練技巧,而是機器人做決策的一部分。
在這三階段pipeline背后,τ0-WM主要由兩個共享視頻擴散backbone組件驅動:
![]()
負責“提議動作”的VAM,以及負責“沙盤推演”的動作條件視頻模擬器。
前者基于Wan2.2-5B視頻生成模型,同時輸出未來視頻latent和動作chunk;后者則專門負責評估未來狀態和任務進度。
而在訓練階段,三類不同來源的數據,也通過modality-specific supervision masks被統一揉進了同一個體系:
有動作標簽的數據,同時訓練視頻與動作;沒有動作標簽的數據,則只訓練視頻分支。
3萬小時預訓練數據
接下來,就到了τ0-WM這次最夸張、也最“重資產”的部分:訓練數據。
這近3萬小時的預訓練數據,不只刷新了開源具身世界模型的規模紀錄,更重要的是,它正在打破行業對具身智能數據金字塔的固有認知。
整個τ0-WM的訓練數據,主要由三部分組成,而且每一類數據的角色都不一樣。
![]()
第一類,是真機遙操作數據,總量17800小時。
這部分數據來自雙臂機器人、多視角采集,而且動作空間和真實部署環境完全對齊。
某種程度上,它也是整個數據體系里“最貴”的部分。
因為真機采集不僅慢,還特別吃人力和硬件資源。但與此同時,它也是質量最高的數據。
這批數據提供了最核心的動作監督信號,可以說是τ0-WM敢做大規模預訓練的真正根基。
第二類,是6500小時的UMI數據。
簡單來說,UMI(Universal Manipulation Interface)是一種不依賴特定機器人平臺的數據采集方式。
相比真機遙操作,它覆蓋的物體種類和操作場景會豐富很多。但問題也很明顯,它的動作空間,并不完全等同于真實機器人部署時的動作空間。
所以在τ0-WM中,UMI數據更像是在補“行為多樣性”。
它不一定最精準,但能讓模型見過更多操作方式、更多物體、更多長尾場景。
第三類,則是3000小時的人類第一視角EgoCentric數據。
這部分數據的采集成本最低,但覆蓋范圍卻最大。
里面會包含大量長尾交互行為,以及很多機器人暫時很難專門采集到的真實場景。
不過,它有一個問題:沒有機器人動作標簽。
也就是說,模型只能“看”,不能直接學“機器人該怎么動”。因此,這部分數據只參與視頻分支訓練,不參與動作預測。
它更像是在幫助模型學習:物體會怎么運動,人與環境會怎么交互,場景狀態會如何變化。
看到這里,其實會冒出一個很自然的問題:
既然人類視頻沒有動作標簽,UMI的數據格式又和真機動作空間不完全一致,那模型到底怎么把它們一起訓進去?
τ0-WM這里用了一個很巧的設計——Modality-specific supervision masks(模態特定監督掩碼)。
簡單來說,對于有動作標簽的數據,就同時訓練視頻和動作,沒有動作標簽的數據,就把動作部分mask掉,只訓練視覺分支。
這樣一來,不同來源、不同模態、不同動作空間的數據,就第一次被真正揉進了同一個預訓練體系里。
實驗結論
在實驗部分,團隊最核心想驗證的一件事,其實就是:
Test-Time Computation(測試時計算),到底有沒有用。
在抽紙巾放進盒子和撿筆放進盒子兩個任務上,這兩個任務在3萬小時預訓練數據中從未出現過,屬于模型完全沒見過的新任務。
研究采用了比常規做法更嚴格的評測標準,不允許重試,單次機會,20輪取平均。
![]()
結果表明,不加測試時計算時,裸策略平均成功率只有43%。加入第一層RCS動作篩選后,提升到50%。
再疊加LAR模擬器修正之后,最終來到60%。提升最明顯的是更難的Pen→Box任務,成功率直接從30%拉到了50%。
此外,研究還專門對比了其他測試時引導方法。同樣條件下,Classifier-Free Guidance(CFG)成功率只有20%,Action Coherence Guidance(ACG)為38%,τ0-WM則達到60%。
這里最關鍵的區別就來自之前提到的,CFG和ACG,本質上還是在檢查“動作本身是否連貫”。
而τ0-WM評估的,則是:
“這個動作做完之后,未來世界會變成什么樣,任務有沒有真的往前推進。”
也就是說,前者關注的是動作空間內部的一致性。
而后者,開始真正把“未來后果”納入了決策。
(其余實驗細節可參考論文)
數據金字塔,要變樣了
如果放到整個具身智能行業的數據路線里看,τ0-WM這次真正特別的地方,其實會更明顯。
過去,具身行業的數據體系一直像一個很典型的金字塔。
![]()
最底層,是互聯網視頻數據。
規模最大、最便宜,但沒有機器人動作標簽,只能讓模型學一些通用視覺和世界變化規律。
再往上一層,是仿真數據。
機器人終于開始“動起來”了,但問題在于,仿真和真實物理世界之間,始終隔著一道巨大的sim2real gap。
而金字塔最頂層,則是真機遙操作數據。質量最高,動作空間和真實部署完全一致,但行業過去的普遍認知一直是:
太貴、太少、根本不可能scale。
所以大多數團隊,都會把真機數據留到最后微調階段再用。
但今年,一個新的變化開始出現了,Ego-Centric第一視角數據突然崛起。
大家開始意識到,人類第一視角視頻雖然沒有機器人動作標簽,但它天然包含了大量真實世界里的交互過程、物體變化和長尾操作。
于是整個行業,開始集體all in Ego數據。
某種程度上,Ego-Centric正在變成數據金字塔里的“新中層”,比互聯網視頻更接近真實交互,又比真機數據便宜得多。
但問題是,絕大多數團隊做到這里,其實就停下來了,因為大家仍然默認真機數據依然貴到不可能成為預訓練主體。
但τ0-WM第一次把這個邏輯反過來了。
他們一邊引入Ego-Centric數據,一邊直接用17800小時真機遙操作數據給預訓練打底。
這件事也不是突然發生的。
回看羅劍嵐團隊過去一年多的工作,會發現一條非常清晰的主線,他們搭的不是單點模型,而是一整套真實世界數據飛輪。
2026年1月,SOP搭起了規模化的真機數據采集和回流基礎設施。
![]()
2026年4月,LWD把大規模強化學習引入具身VLA的后訓練,構建了部署即訓練的數據飛輪,機器人跑得越多,回流數據越多,模型越強,又能跑更多任務。失敗軌跡也第一次被系統性納入學習。
![]()
而當真機交互數據積累跨過某個臨界點之后,一件以前沒人敢想的事,就自然發生了:
真機數據終于開始從“后訓練耗材”,變成“預訓練燃料”。
直到這里,具身智能里的“預訓練—真機部署—數據回流—再預訓練”這條鏈路,才第一次真正開始跑通。
項目網站:
https://finch.agibot.com/research/tau0-wm
項目github:
https://github.com/sii-research/tau-0-wm
模型huggingface:
https://huggingface.co/sii-research/tau-0-wm
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.