<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<nav id="hvyuo"><menu id="hvyuo"></menu></nav>

<pre id="hvyuo"><samp id="hvyuo"><b id="hvyuo"></b></samp></pre>

<em id="hvyuo"></em><thead id="hvyuo"><delect id="hvyuo"><em id="hvyuo"></em></delect></thead>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

τ0-WM：最大規模預訓練的開源具身世界模型來了

2026-05-31 15:41:50　來源: 量子位

北京舉報

0

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

具身智能火了快兩年，現在，終于有團隊富裕到拿真機數據去砸預訓練了。

而且一砸，就是17800小時

這是啥概念？差不多相當于一臺機器人，連續兩年、一天24小時不停地被人類遙操作。

當所有人都以為真機數據是奢侈品，難以scaling，只能放在最后的微調階段時。

剛剛，上海創智學院副教授、智元機器人首席科學家羅劍嵐帶隊，發布全球最大規模的開源預訓練具身世界模型

τ0-World Model（τ0-WM)

整個τ0-WM參數量達到5B，預訓練數據規模高達約3萬小時。其中，真機遙操作數據第一次成了絕對主力，占到了1.78萬小時。

而3萬小時的預訓練數據，是目前全球開源預訓練具身世界模型中最大的。

τ0-WM不僅能像其他世界模型那樣預測未來畫面、生成動作。

更重要的是，它還結合了測試時計算（Test-Time Computation），讓機器人在執行前對多個候選動作進行排序，選出最優方案，質量不夠就調用模擬器修正后再執行。

基于這套方法；τ0-WM在四個長程精細操作任務，包括Toolbox（工具收納）、School Bag（書包裝物）、Badminton（羽毛球裝盒）和Faucet（水管接頭對接）的平均成功率超過了對標π0.5和Fast-WAM。

可以說，羅劍嵐團隊此前在后訓練方面的持續投入，不僅攢出了足夠規模的真機數據，也攢出了把這些數據用于大規模預訓練的經驗。

預訓練和后訓練這兩條線，終于對齊了。

提議、模擬、評估，然后行動

過去幾年，驅動機器人實現感知與控制的主流范式，大多是一種反應式的端到端策略：

神經網絡看到畫面，立刻輸出動作。

這種類似于人類“條件反射”的方式，在抓取、放置等標準任務里已經非常成功。

但就像人類其實并不完全依賴肌肉記憶一樣，機器人在面對接觸密集、長程跨度、或者存在嚴重遮擋的復雜操作時，單純依靠“看見場景就輸出動作”的方式，也很容易導致不可逆的錯誤。

很多時候，一步錯，后面可能就全錯了。

所以，和許多世界模型方法一樣，τ0-WM選擇讓機器人在行動之前，先在腦子里“想象”一下：

如果自己執行了這個動作，未來會發生什么，環境會怎么變化。

但τ0-WM特別的地方在于，它不只“想一次”。

為了讓機器人能夠三思而后行，研究引入了Test-Time Computation（測試時計算），讓機器人在真正執行前，可以多花一點時間，在內部“虛擬沙盤”里并行想象很多次，反復比較，甚至主動糾錯。

也就是說，τ0-WM讓機器人不再只是看到畫面就立刻出手，而是像人一樣，先在腦子里盤一遍哪種路線更靠譜，再決定真正怎么做。

某種程度上，這其實是在讓機器人學會一種“慢思考”。

具體來說，τ0-WM的在線推理，分成三步。

第一步，提議。

首先，視頻動作模型（VAM）會根據當前多視角觀測、語言指令以及機器人狀態，一次性采樣出多組候選動作，同時生成對應的模糊未來畫面。

這相當于機器人先在腦子里快速閃過幾種可能的做法。

第二步，推演。

其次，動作條件視頻模擬器會針對每組候選動作，進一步生成對應的多視角未來畫面。

之所以是多視角，是因為真實機器人操作里，正面視角經常會被機械臂或物體擋住，所以模型必須還能“腦補”側面、頂部等其他視角下的未來狀態，才能真正判斷動作后果。

第三步，評估與修正。

最后，系統會先用RCS（Re-denoising Consistency Score）給動作打分：把候選動作重新加噪，再丟回模型重新去噪，觀察重建誤差。

誤差越小，說明這個動作越接近模型訓練時學到的高質量動作分布，也越靠譜。

但如果最優動作的分數依然不夠高，就會觸發第二層機制LAR（Low-quality Action Rectification）。

系統會把所有候選動作送進視頻模擬器，預測對應未來狀態以及任務進度，挑出“任務推進效果最好”的未來畫面，再讓VAM基于這個“最優未來”重新生成動作。

最終，模型基于這三步走，輸出最好的動作。

值得一提的是，雖然很多世界模型在訓練時也會預測未來，但部署時為了推理速度，往往會把未來預測模塊直接去掉。

τ0-WM則堅持在推理階段保留“顯式未來想象”，并把這些未來畫面真正用于后續動作的打分、篩選與修正。

也就是說，對τ0-WM而言，“想象未來”不是訓練技巧，而是機器人做決策的一部分。

在這三階段pipeline背后，τ0-WM主要由兩個共享視頻擴散backbone組件驅動：

負責“提議動作”的VAM，以及負責“沙盤推演”的動作條件視頻模擬器。

前者基于Wan2.2-5B視頻生成模型，同時輸出未來視頻latent和動作chunk；后者則專門負責評估未來狀態和任務進度。

而在訓練階段，三類不同來源的數據，也通過modality-specific supervision masks被統一揉進了同一個體系：

有動作標簽的數據，同時訓練視頻與動作；沒有動作標簽的數據，則只訓練視頻分支。

3萬小時預訓練數據

接下來，就到了τ0-WM這次最夸張、也最“重資產”的部分：訓練數據

這近3萬小時的預訓練數據，不只刷新了開源具身世界模型的規模紀錄，更重要的是，它正在打破行業對具身智能數據金字塔的固有認知。

整個τ0-WM的訓練數據，主要由三部分組成，而且每一類數據的角色都不一樣。

第一類，是真機遙操作數據，總量17800小時。

這部分數據來自雙臂機器人、多視角采集，而且動作空間和真實部署環境完全對齊。

某種程度上，它也是整個數據體系里“最貴”的部分。

因為真機采集不僅慢，還特別吃人力和硬件資源。但與此同時，它也是質量最高的數據。

這批數據提供了最核心的動作監督信號，可以說是τ0-WM敢做大規模預訓練的真正根基。

第二類，是6500小時的UMI數據

簡單來說，UMI（Universal Manipulation Interface）是一種不依賴特定機器人平臺的數據采集方式。

相比真機遙操作，它覆蓋的物體種類和操作場景會豐富很多。但問題也很明顯，它的動作空間，并不完全等同于真實機器人部署時的動作空間。

所以在τ0-WM中，UMI數據更像是在補“行為多樣性”。

它不一定最精準，但能讓模型見過更多操作方式、更多物體、更多長尾場景。

第三類，則是3000小時的人類第一視角EgoCentric數據

這部分數據的采集成本最低，但覆蓋范圍卻最大。

里面會包含大量長尾交互行為，以及很多機器人暫時很難專門采集到的真實場景。

不過，它有一個問題：沒有機器人動作標簽。

也就是說，模型只能“看”，不能直接學“機器人該怎么動”。因此，這部分數據只參與視頻分支訓練，不參與動作預測。

它更像是在幫助模型學習：物體會怎么運動，人與環境會怎么交互，場景狀態會如何變化。

看到這里，其實會冒出一個很自然的問題：

既然人類視頻沒有動作標簽，UMI的數據格式又和真機動作空間不完全一致，那模型到底怎么把它們一起訓進去？

τ0-WM這里用了一個很巧的設計——Modality-specific supervision masks（模態特定監督掩碼）。

簡單來說，對于有動作標簽的數據，就同時訓練視頻和動作，沒有動作標簽的數據，就把動作部分mask掉，只訓練視覺分支。

這樣一來，不同來源、不同模態、不同動作空間的數據，就第一次被真正揉進了同一個預訓練體系里。

實驗結論

在實驗部分，團隊最核心想驗證的一件事，其實就是：

Test-Time Computation（測試時計算），到底有沒有用。

抽紙巾放進盒子撿筆放進盒子兩個任務上，這兩個任務在3萬小時預訓練數據中從未出現過，屬于模型完全沒見過的新任務。

研究采用了比常規做法更嚴格的評測標準，不允許重試，單次機會，20輪取平均。

結果表明，不加測試時計算時，裸策略平均成功率只有43%。加入第一層RCS動作篩選后，提升到50%。

再疊加LAR模擬器修正之后，最終來到60%。提升最明顯的是更難的Pen→Box任務，成功率直接從30%拉到了50%。

此外，研究還專門對比了其他測試時引導方法。同樣條件下，Classifier-Free Guidance（CFG）成功率只有20%，Action Coherence Guidance（ACG）為38%，τ0-WM則達到60%。

這里最關鍵的區別就來自之前提到的，CFG和ACG，本質上還是在檢查“動作本身是否連貫”。

而τ0-WM評估的，則是：

“這個動作做完之后，未來世界會變成什么樣，任務有沒有真的往前推進?！?/p>

也就是說，前者關注的是動作空間內部的一致性。

而后者，開始真正把“未來后果”納入了決策。

（其余實驗細節可參考論文）

數據金字塔，要變樣了

如果放到整個具身智能行業的數據路線里看，τ0-WM這次真正特別的地方，其實會更明顯。

過去，具身行業的數據體系一直像一個很典型的金字塔。

最底層，是互聯網視頻數據。

規模最大、最便宜，但沒有機器人動作標簽，只能讓模型學一些通用視覺和世界變化規律。

再往上一層，是仿真數據。

機器人終于開始“動起來”了，但問題在于，仿真和真實物理世界之間，始終隔著一道巨大的sim2real gap。

而金字塔最頂層，則是真機遙操作數據。質量最高，動作空間和真實部署完全一致，但行業過去的普遍認知一直是：

太貴、太少、根本不可能scale。

所以大多數團隊，都會把真機數據留到最后微調階段再用。

但今年，一個新的變化開始出現了，Ego-Centric第一視角數據突然崛起。

大家開始意識到，人類第一視角視頻雖然沒有機器人動作標簽，但它天然包含了大量真實世界里的交互過程、物體變化和長尾操作。

于是整個行業，開始集體all in Ego數據。

某種程度上，Ego-Centric正在變成數據金字塔里的“新中層”，比互聯網視頻更接近真實交互，又比真機數據便宜得多。

但問題是，絕大多數團隊做到這里，其實就停下來了，因為大家仍然默認真機數據依然貴到不可能成為預訓練主體。

但τ0-WM第一次把這個邏輯反過來了。

他們一邊引入Ego-Centric數據，一邊直接用17800小時真機遙操作數據給預訓練打底。

這件事也不是突然發生的。

回看羅劍嵐團隊過去一年多的工作，會發現一條非常清晰的主線，他們搭的不是單點模型，而是一整套真實世界數據飛輪。

2026年1月，SOP搭起了規?；恼鏅C數據采集和回流基礎設施。

2026年4月，LWD把大規模強化學習引入具身VLA的后訓練，構建了部署即訓練的數據飛輪，機器人跑得越多，回流數據越多，模型越強，又能跑更多任務。失敗軌跡也第一次被系統性納入學習。

而當真機交互數據積累跨過某個臨界點之后，一件以前沒人敢想的事，就自然發生了：

真機數據終于開始從“后訓練耗材”，變成“預訓練燃料”。

直到這里，具身智能里的“預訓練—真機部署—數據回流—再預訓練”這條鏈路，才第一次真正開始跑通。

項目網站：https://finch.agibot.com/research/tau0-wm
項目github：https://github.com/sii-research/tau-0-wm
模型huggingface：https://huggingface.co/sii-research/tau-0-wm

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

媒體：印度多個領域面臨嚴重問題莫迪發出罕見的號召

上觀新聞 2026-05-31 19:14:08
21079 跟貼 21079
中國代表"香會"向菲律賓防長提問菲防長現場大放厥詞

北京日報 2026-05-31 21:15:10
3816 跟貼 3816

張雪機車收獲兩個第8名張雪發文:反對車手德比斯攬責

都市快報橙柿互動 2026-06-01 08:57:58
4290 跟貼 4290

法國外長強烈譴責：這是一個嚴重錯誤！

上觀新聞 2026-05-31 19:49:03
333 跟貼 333
再被曝光“圈路收費”的瀘沽湖景區：已開通過境車輛專用通道

南方都市報 2026-05-29 17:10:06
1594 跟貼 1594

鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1866 跟貼 1866

6月1日起102項國家標準開始實施

新京報 2026-05-31 18:08:09
3362 跟貼 3362
廣東一小學六一匯演童聲演唱被贊如天籟，全網走紅校方：沒特長生，沒有耳返、修音，全開麥演唱

紅星新聞 2026-05-31 16:46:40
496 跟貼 496

張鎮麟太香了！

新民晚報 2026-06-01 09:08:06
80 跟貼 80
稻城亞丁景區問題，最新通報

云南網絡廣播電視臺 2026-05-29 09:45:59
1440 跟貼 1440
觀察：中超半程戰罷，海港、申花集體拉胯，上海雙雄為何狀態斷崖式下滑？

上觀新聞 2026-06-01 04:39:11
32 跟貼 32
要求配偶為學校在職在編優秀博士，貴州大學回應“蘿卜崗”招聘質疑：條件設置不當，已終止招聘

都市快報橙柿互動 2026-06-01 09:19:03
4 跟貼 4
尚帕涅：科內特的封蓋是比賽最關鍵一球沒見過他跑那么快

北青網-北京青年報 2026-05-31 19:26:35
88 跟貼 88
美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

澎湃新聞 2026-05-31 15:36:11
360 跟貼 360
車輛“發福”，車位需擴容？

海外網 2026-06-01 06:43:14
63 跟貼 63
視頻：052D型驅逐艦銅川艦公開亮相

央視新聞客戶端 2026-05-31 16:29:30
786 跟貼 786
以軍：已奪取黎南部重要戰略地點

界面新聞 2026-05-31 14:11:04
1676 跟貼 1676
閑魚讀取用戶手機內文物照片上架售賣？陜歷博“鎮館之寶”被標價6000元，平臺回應

上游新聞 2026-06-01 09:45:05
0 跟貼 0
夜空中最亮的星

國際在線 2026-05-29 08:57:49
1489 跟貼 1489
吃片皮鴨、喝紅酒、品甜點…夏日，上海市集的煙火氣和氛圍感如何“煉成”？

上觀新聞 2026-06-01 07:34:08
400 跟貼 400
在真實版“寧州縣劇團”的泥土里，看烈烈秦腔如何迎風生長

西安發布 2026-06-01 09:39:46
11 跟貼 11
溫州這家水果店！好好溝通還被店家兇

溫州草根 2026-06-01 13:19:55
0 跟貼 0
日韓股市創新高

財聯社 2026-06-01 08:08:06
0 跟貼 0

襄陽“割四賠五”后續：23家派出所出手，網紅出面也無力扭轉局面

襄陽“割四賠五”后續：23家派出所出手，網紅出面也無力扭轉局面

觀察鑒娛

2026-05-31 19:01:32

印尼左右為難，22天后想悄悄松手，結果發現趕走國人產業就崩了！

印尼左右為難，22天后想悄悄松手，結果發現趕走國人產業就崩了！

聞識

2026-06-01 04:34:45

這對文玩核桃有200年歷史？各位上眼吧

這對文玩核桃有200年歷史？各位上眼吧

鴻璐宣

2026-05-31 12:05:03

俄烏戰爭，如果俄羅斯最終贏了，你我在有生之年很可能會親歷戰爭

俄烏戰爭，如果俄羅斯最終贏了，你我在有生之年很可能會親歷戰爭

混沌錄

2026-05-29 23:26:12

35頁ＰＰＴ瘋傳：洛陽女子1女談3男，每天卡時間，都已談婚論嫁

35頁ＰＰＴ瘋傳：洛陽女子1女談3男，每天卡時間，都已談婚論嫁

烈史

2026-05-30 13:23:41

界面調查｜起底留神峪煤礦及實控人任鐵柱：草根出身，煤改中幸存，管理混亂釀成大禍

界面調查｜起底留神峪煤礦及實控人任鐵柱：草根出身，煤改中幸存，管理混亂釀成大禍

界面新聞

2026-05-31 16:40:39

250億元，賴清德偷竄代價曝光，島內批：為牟取政治利益“自甘下跪”

250億元，賴清德偷竄代價曝光，島內批：為牟取政治利益“自甘下跪”

環球網資訊

2026-06-01 06:36:08

做好事還是做壞事？男子丟了手機獻完血順走護士手機，民警12小時內將其抓獲

做好事還是做壞事？男子丟了手機獻完血順走護士手機，民警12小時內將其抓獲

大風新聞

2026-06-01 10:51:03

鄧正紅軟實力哲學：物質奇點的“無限悖論”違背物理世界基本規則

鄧正紅軟實力哲學：物質奇點的“無限悖論”違背物理世界基本規則

鄧正紅軟實力

2026-06-01 11:50:57

鬧笑話了！黃仁勛攤牌：看不上華為韜定律，卻被業內專家說不專業

鬧笑話了！黃仁勛攤牌：看不上華為韜定律，卻被業內專家說不專業

兵鑒史

2026-05-30 14:32:11

女子嫌丈夫懷疑她出軌，只能讓情夫殺了丈夫，2008年可憐了2個娃

女子嫌丈夫懷疑她出軌，只能讓情夫殺了丈夫，2008年可憐了2個娃

漢史趣聞

2026-05-31 15:41:25

成人網紅邦妮自曝惡心計劃：6月辦尿淋派對，粉絲可尿她發生關系

成人網紅邦妮自曝惡心計劃：6月辦尿淋派對，粉絲可尿她發生關系

赴一場山海啊

2026-06-01 00:27:25

6-2！巴西大輪換仍橫掃世界杯參賽隊，皇馬1.5億巨星傳射+世界波

6-2！巴西大輪換仍橫掃世界杯參賽隊，皇馬1.5億巨星傳射+世界波

我愛英超

2026-06-01 07:34:53

Lisa懷了驢老三的孩子?。?>
</a>
<h3>
<a href=

Lisa懷了驢老三的孩子！？八卦瘋叔

2026-06-01 10:27:11

急需重建！廣廈0-3脆敗上海，隊友內訌曝光，三大拖油瓶藏不住了

急需重建！廣廈0-3脆敗上海，隊友內訌曝光，三大拖油瓶藏不住了

八斗小先生

2026-06-01 11:36:36

女子蹭卡進山姆待一天，有吃有喝空調還能吹到飽

女子蹭卡進山姆待一天，有吃有喝空調還能吹到飽

映射生活的身影

2026-05-31 21:37:09

韓國談抗美援朝：超400萬人犧牲，中國并非援助，而是戰爭主力!

韓國談抗美援朝：超400萬人犧牲，中國并非援助，而是戰爭主力!

興趣知識

2026-05-31 00:56:50

百萬網紅邊牧被賣后續！母親崩潰怒斥，當事人放話，收狗人曝內情

百萬網紅邊牧被賣后續！母親崩潰怒斥，當事人放話，收狗人曝內情

奇思妙想草葉君

2026-05-30 22:22:07

襄陽割四賠五新后續：大批麥客連夜撤走，當地部門緊急出手整改

襄陽割四賠五新后續：大批麥客連夜撤走，當地部門緊急出手整改

奇思妙想草葉君

2026-05-31 23:01:42

張雪機車收獲兩個第8名，張雪發文反對車手德比斯攬責：“知道短板了就改進，相信下一代賽車更強”

張雪機車收獲兩個第8名，張雪發文反對車手德比斯攬責：“知道短板了就改進，相信下一代賽車更強”

都市快報橙柿互動

2026-06-01 08:57:58

追蹤人工智能動態

12720文章數 176476關注度

往期回顧全部

科技要聞

關停三年后，天涯社區今起開放訪問

頭條要聞

普京將烏無人機殘骸交于美方被指發表"極其危險言論"

頭條要聞

普京將烏無人機殘骸交于美方被指發表"極其危險言論"

體育要聞

哭過之后，文班亞馬想給波波維奇打電話

娛樂要聞

張凌赫活動商場玻璃被擠爆5人受傷

財經要聞

網紅驅蚊產品，標注化妝品竟含農藥成分

汽車要聞

上市三周交付3603臺！華境S躋身旗艦大六座第一梯隊

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

手機

藝術

親子

軍事航空

嘗試干細胞療法如何避免踩坑？

手機要聞

小米17系列即將突破500萬銷量，國產安卓第一人有意見嗎？

藝術要聞

吳鎮寫竹，清清爽爽

親子要聞

2025年我國批準兒童用藥138個，創歷史新高

軍事要聞

韓國最大軍工企業爆炸已造成5人死亡

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：日韩欧美在线综合视频| 国产福利免费在线观看| 国产亚洲一二三区精品| wwww亚洲熟妇久久久久| 精品久久久久久久久久香蕉| 国内精品久久久人妻中文字幕| 极品少妇被后入内射视| 日韩精品一区二区三区蜜臀| 中文字幕亚洲在线| av色导航| 亚洲AV成人无码国产一区二区| 国产精品爆乳在线播放| 免费国产一级片内射老| 亚洲精品国产一二三区| 科技| 亚洲国产精品国自产拍A| 国产精品自拍中文字幕| 午夜福利看片在线观看| 黄片视频在线观看| 日本久久高清一区二区三区毛片 | 久久久无码人妻精品无码| 岛国av无码免费无禁网站| 中文字幕有码在线观看| 又黄又爽又色的少妇毛片| 女人15毛片a级16女人水真多| 亚洲区日韩精品中文字幕下载| 久久综合国产色美利坚| 一本高清码二区三区不卡| 免费观看黄色网址| 日本高清一区免费中文视频| 午夜福利电影| 国产高清吹潮免费视频| 欧美成人动态图| 亚洲成人av在线资源| 国产精品香港三级国产av| 成人欧美一区二区三区| 中文字幕第一页国产| 日本爱爱精品一区二区| 中文韩国午夜理伦三级好看 | 少妇无码av无码专区在线观看 | 在线无码精品秘在线观看|

<center id="rb1pk"></center>

<rt id="rb1pk"></rt>