<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      τ0-WM:最大規模預訓練的開源具身世界模型來了

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      具身智能火了快兩年,現在,終于有團隊富裕到拿真機數據去砸預訓練了。

      而且一砸,就是17800小時

      這是啥概念?差不多相當于一臺機器人,連續兩年、一天24小時不停地被人類遙操作。

      當所有人都以為真機數據是奢侈品,難以scaling,只能放在最后的微調階段時。

      剛剛,上海創智學院副教授、智元機器人首席科學家羅劍嵐帶隊,發布全球最大規模的開源預訓練具身世界模型——

      τ0-World Model(τ0-WM)



      整個τ0-WM參數量達到5B,預訓練數據規模高達約3萬小時。其中,真機遙操作數據第一次成了絕對主力,占到了1.78萬小時。

      而3萬小時的預訓練數據,是目前全球開源預訓練具身世界模型中最大的。

      τ0-WM不僅能像其他世界模型那樣預測未來畫面、生成動作。

      更重要的是,它還結合了測試時計算(Test-Time Computation),讓機器人在執行前對多個候選動作進行排序,選出最優方案,質量不夠就調用模擬器修正后再執行。

      基于這套方法;τ0-WM在四個長程精細操作任務,包括Toolbox(工具收納)、School Bag(書包裝物)、Badminton(羽毛球裝盒)和Faucet(水管接頭對接)的平均成功率超過了對標π0.5和Fast-WAM。



      可以說,羅劍嵐團隊此前在后訓練方面的持續投入,不僅攢出了足夠規模的真機數據,也攢出了把這些數據用于大規模預訓練的經驗。

      預訓練和后訓練這兩條線,終于對齊了。

      提議、模擬、評估,然后行動

      過去幾年,驅動機器人實現感知與控制的主流范式,大多是一種反應式的端到端策略:

      神經網絡看到畫面,立刻輸出動作。

      這種類似于人類“條件反射”的方式,在抓取、放置等標準任務里已經非常成功。

      但就像人類其實并不完全依賴肌肉記憶一樣,機器人在面對接觸密集、長程跨度、或者存在嚴重遮擋的復雜操作時,單純依靠“看見場景就輸出動作”的方式,也很容易導致不可逆的錯誤。

      很多時候,一步錯,后面可能就全錯了。

      所以,和許多世界模型方法一樣,τ0-WM選擇讓機器人在行動之前,先在腦子里“想象”一下:

      如果自己執行了這個動作,未來會發生什么,環境會怎么變化。

      但τ0-WM特別的地方在于,它不只“想一次”。

      為了讓機器人能夠三思而后行,研究引入了Test-Time Computation(測試時計算),讓機器人在真正執行前,可以多花一點時間,在內部“虛擬沙盤”里并行想象很多次,反復比較,甚至主動糾錯。

      也就是說,τ0-WM讓機器人不再只是看到畫面就立刻出手,而是像人一樣,先在腦子里盤一遍哪種路線更靠譜,再決定真正怎么做。

      某種程度上,這其實是在讓機器人學會一種“慢思考”。



      具體來說,τ0-WM的在線推理,分成三步。

      第一步,提議。

      首先,視頻動作模型(VAM)會根據當前多視角觀測、語言指令以及機器人狀態,一次性采樣出多組候選動作,同時生成對應的模糊未來畫面。

      這相當于機器人先在腦子里快速閃過幾種可能的做法。

      第二步,推演。

      其次,動作條件視頻模擬器會針對每組候選動作,進一步生成對應的多視角未來畫面。

      之所以是多視角,是因為真實機器人操作里,正面視角經常會被機械臂或物體擋住,所以模型必須還能“腦補”側面、頂部等其他視角下的未來狀態,才能真正判斷動作后果。

      第三步,評估與修正。

      最后,系統會先用RCS(Re-denoising Consistency Score)給動作打分:把候選動作重新加噪,再丟回模型重新去噪,觀察重建誤差。

      誤差越小,說明這個動作越接近模型訓練時學到的高質量動作分布,也越靠譜。

      但如果最優動作的分數依然不夠高,就會觸發第二層機制LAR(Low-quality Action Rectification)。

      系統會把所有候選動作送進視頻模擬器,預測對應未來狀態以及任務進度,挑出“任務推進效果最好”的未來畫面,再讓VAM基于這個“最優未來”重新生成動作。

      最終,模型基于這三步走,輸出最好的動作。

      值得一提的是,雖然很多世界模型在訓練時也會預測未來,但部署時為了推理速度,往往會把未來預測模塊直接去掉。

      τ0-WM則堅持在推理階段保留“顯式未來想象”,并把這些未來畫面真正用于后續動作的打分、篩選與修正。

      也就是說,對τ0-WM而言,“想象未來”不是訓練技巧,而是機器人做決策的一部分。

      在這三階段pipeline背后,τ0-WM主要由兩個共享視頻擴散backbone組件驅動:



      負責“提議動作”的VAM,以及負責“沙盤推演”的動作條件視頻模擬器。

      前者基于Wan2.2-5B視頻生成模型,同時輸出未來視頻latent和動作chunk;后者則專門負責評估未來狀態和任務進度。

      而在訓練階段,三類不同來源的數據,也通過modality-specific supervision masks被統一揉進了同一個體系:

      有動作標簽的數據,同時訓練視頻與動作;沒有動作標簽的數據,則只訓練視頻分支。

      3萬小時預訓練數據

      接下來,就到了τ0-WM這次最夸張、也最“重資產”的部分:訓練數據

      這近3萬小時的預訓練數據,不只刷新了開源具身世界模型的規模紀錄,更重要的是,它正在打破行業對具身智能數據金字塔的固有認知。

      整個τ0-WM的訓練數據,主要由三部分組成,而且每一類數據的角色都不一樣。



      第一類,是真機遙操作數據,總量17800小時。

      這部分數據來自雙臂機器人、多視角采集,而且動作空間和真實部署環境完全對齊。

      某種程度上,它也是整個數據體系里“最貴”的部分。

      因為真機采集不僅慢,還特別吃人力和硬件資源。但與此同時,它也是質量最高的數據。

      這批數據提供了最核心的動作監督信號,可以說是τ0-WM敢做大規模預訓練的真正根基。

      第二類,是6500小時的UMI數據

      簡單來說,UMI(Universal Manipulation Interface)是一種不依賴特定機器人平臺的數據采集方式。

      相比真機遙操作,它覆蓋的物體種類和操作場景會豐富很多。但問題也很明顯,它的動作空間,并不完全等同于真實機器人部署時的動作空間。

      所以在τ0-WM中,UMI數據更像是在補“行為多樣性”。

      它不一定最精準,但能讓模型見過更多操作方式、更多物體、更多長尾場景。

      第三類,則是3000小時的人類第一視角EgoCentric數據

      這部分數據的采集成本最低,但覆蓋范圍卻最大。

      里面會包含大量長尾交互行為,以及很多機器人暫時很難專門采集到的真實場景。

      不過,它有一個問題:沒有機器人動作標簽。

      也就是說,模型只能“看”,不能直接學“機器人該怎么動”。因此,這部分數據只參與視頻分支訓練,不參與動作預測。

      它更像是在幫助模型學習:物體會怎么運動,人與環境會怎么交互,場景狀態會如何變化。

      看到這里,其實會冒出一個很自然的問題:

      既然人類視頻沒有動作標簽,UMI的數據格式又和真機動作空間不完全一致,那模型到底怎么把它們一起訓進去?

      τ0-WM這里用了一個很巧的設計——Modality-specific supervision masks(模態特定監督掩碼)。

      簡單來說,對于有動作標簽的數據,就同時訓練視頻和動作,沒有動作標簽的數據,就把動作部分mask掉,只訓練視覺分支。

      這樣一來,不同來源、不同模態、不同動作空間的數據,就第一次被真正揉進了同一個預訓練體系里。

      實驗結論

      在實驗部分,團隊最核心想驗證的一件事,其實就是:

      Test-Time Computation(測試時計算),到底有沒有用。

      抽紙巾放進盒子撿筆放進盒子兩個任務上,這兩個任務在3萬小時預訓練數據中從未出現過,屬于模型完全沒見過的新任務。

      研究采用了比常規做法更嚴格的評測標準,不允許重試,單次機會,20輪取平均。



      結果表明,不加測試時計算時,裸策略平均成功率只有43%。加入第一層RCS動作篩選后,提升到50%。

      再疊加LAR模擬器修正之后,最終來到60%。提升最明顯的是更難的Pen→Box任務,成功率直接從30%拉到了50%。

      此外,研究還專門對比了其他測試時引導方法。同樣條件下,Classifier-Free Guidance(CFG)成功率只有20%,Action Coherence Guidance(ACG)為38%,τ0-WM則達到60%。

      這里最關鍵的區別就來自之前提到的,CFG和ACG,本質上還是在檢查“動作本身是否連貫”。

      而τ0-WM評估的,則是:

      “這個動作做完之后,未來世界會變成什么樣,任務有沒有真的往前推進。”

      也就是說,前者關注的是動作空間內部的一致性。

      而后者,開始真正把“未來后果”納入了決策。

      (其余實驗細節可參考論文)

      數據金字塔,要變樣了

      如果放到整個具身智能行業的數據路線里看,τ0-WM這次真正特別的地方,其實會更明顯。

      過去,具身行業的數據體系一直像一個很典型的金字塔。



      最底層,是互聯網視頻數據。

      規模最大、最便宜,但沒有機器人動作標簽,只能讓模型學一些通用視覺和世界變化規律。

      再往上一層,是仿真數據。

      機器人終于開始“動起來”了,但問題在于,仿真和真實物理世界之間,始終隔著一道巨大的sim2real gap。

      而金字塔最頂層,則是真機遙操作數據。質量最高,動作空間和真實部署完全一致,但行業過去的普遍認知一直是:

      太貴、太少、根本不可能scale。

      所以大多數團隊,都會把真機數據留到最后微調階段再用。

      但今年,一個新的變化開始出現了,Ego-Centric第一視角數據突然崛起。

      大家開始意識到,人類第一視角視頻雖然沒有機器人動作標簽,但它天然包含了大量真實世界里的交互過程、物體變化和長尾操作。

      于是整個行業,開始集體all in Ego數據。

      某種程度上,Ego-Centric正在變成數據金字塔里的“新中層”,比互聯網視頻更接近真實交互,又比真機數據便宜得多。

      但問題是,絕大多數團隊做到這里,其實就停下來了,因為大家仍然默認真機數據依然貴到不可能成為預訓練主體。

      但τ0-WM第一次把這個邏輯反過來了。

      他們一邊引入Ego-Centric數據,一邊直接用17800小時真機遙操作數據給預訓練打底。

      這件事也不是突然發生的。

      回看羅劍嵐團隊過去一年多的工作,會發現一條非常清晰的主線,他們搭的不是單點模型,而是一整套真實世界數據飛輪。

      2026年1月,SOP搭起了規模化的真機數據采集和回流基礎設施。



      2026年4月,LWD把大規模強化學習引入具身VLA的后訓練,構建了部署即訓練的數據飛輪,機器人跑得越多,回流數據越多,模型越強,又能跑更多任務。失敗軌跡也第一次被系統性納入學習。



      而當真機交互數據積累跨過某個臨界點之后,一件以前沒人敢想的事,就自然發生了:

      真機數據終于開始從“后訓練耗材”,變成“預訓練燃料”。

      直到這里,具身智能里的“預訓練—真機部署—數據回流—再預訓練”這條鏈路,才第一次真正開始跑通。

      項目網站:
      https://finch.agibot.com/research/tau0-wm
      項目github:
      https://github.com/sii-research/tau-0-wm
      模型huggingface:
      https://huggingface.co/sii-research/tau-0-wm

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      法國干了件大事!《黑人法典》廢除,254票全票通過,等了近180年

      法國干了件大事!《黑人法典》廢除,254票全票通過,等了近180年

      潮鹿逐夢
      2026-05-31 00:24:39
      無需催生!中國最愿意生孩子的省,根本不用催,連續七年全國第一

      無需催生!中國最愿意生孩子的省,根本不用催,連續七年全國第一

      素衣讀史
      2026-05-26 21:52:56
      禁止所有中國外交官入境,不讓兩岸統一,這個國家比美囂張多了

      禁止所有中國外交官入境,不讓兩岸統一,這個國家比美囂張多了

      共工之錨
      2026-05-03 00:08:08
      娶了縣長癡呆25年的女兒,晚上我準備打地鋪,她說:不許睡地上

      娶了縣長癡呆25年的女兒,晚上我準備打地鋪,她說:不許睡地上

      熱心市民小黃
      2026-06-01 16:14:58
      再貴也要吃!1斤頂10斤牛羊肉,健脾養胃強免疫,老人小孩都適合

      再貴也要吃!1斤頂10斤牛羊肉,健脾養胃強免疫,老人小孩都適合

      鬼菜生活
      2026-05-30 19:05:25
      都嘲笑印度熱成了火焰山,卻沒人知道:巴鐵和孟加拉也是火爐

      都嘲笑印度熱成了火焰山,卻沒人知道:巴鐵和孟加拉也是火爐

      世界地緣觀察
      2026-06-01 10:48:29
      美國如何欺騙丹麥:格陵蘭島冰下 30 米處,科學家發現了驚天秘密

      美國如何欺騙丹麥:格陵蘭島冰下 30 米處,科學家發現了驚天秘密

      混沌錄
      2026-05-30 00:31:09
      鐘南山發現:能活到90歲的老人,基本在60歲,就已經不做這6事了

      鐘南山發現:能活到90歲的老人,基本在60歲,就已經不做這6事了

      醫學科普匯
      2026-05-13 23:30:08
      文班亞馬與唐斯交手6次,唐斯場均19.2分

      文班亞馬與唐斯交手6次,唐斯場均19.2分

      負面黑洞
      2026-06-01 14:11:14
      純電汽車能用幾年?答案竟然讓你大吃一驚!

      純電汽車能用幾年?答案竟然讓你大吃一驚!

      侃故事的阿慶
      2026-05-21 10:01:58
      54歲突然發現,許多中產家庭漸漸窮回去了,以下兩個征兆,要警惕

      54歲突然發現,許多中產家庭漸漸窮回去了,以下兩個征兆,要警惕

      趣味萌寵的日常
      2026-05-31 11:25:53
      特斯拉突然發布新系統,新增兩項實用功能!

      特斯拉突然發布新系統,新增兩項實用功能!

      XCiOS俱樂部
      2026-05-31 19:49:44
      馬科斯已料到大選結局,暗示莎拉當選總統后,不要推翻目前的政策

      馬科斯已料到大選結局,暗示莎拉當選總統后,不要推翻目前的政策

      忠于法紀
      2026-06-01 18:36:38
      科學家挖出2000年前種子,嘗試種植后,竟長出滅絕1500多年的植物

      科學家挖出2000年前種子,嘗試種植后,竟長出滅絕1500多年的植物

      春風秋雨
      2026-05-27 19:25:06
      亞美尼亞:俄羅斯還沒學會文明打交道的方式

      亞美尼亞:俄羅斯還沒學會文明打交道的方式

      名人茍或
      2026-05-31 17:25:53
      能源危機:印度“不能承受之重”

      能源危機:印度“不能承受之重”

      上觀新聞
      2026-05-31 19:14:08
      懸了! 中超夏窗清洗名單曝光, 這6名外援大概率要走人, 海港泰山在列

      懸了! 中超夏窗清洗名單曝光, 這6名外援大概率要走人, 海港泰山在列

      畫夕
      2026-06-01 19:36:57
      淮海戰役慘敗后,王凌云只身脫逃,隱姓埋名潛入深山娶了個村姑

      淮海戰役慘敗后,王凌云只身脫逃,隱姓埋名潛入深山娶了個村姑

      磊子講史
      2026-05-29 16:17:30
      女性絕經后,還能進行夫妻生活嗎?下面干巴巴的,究竟該怎么辦?

      女性絕經后,還能進行夫妻生活嗎?下面干巴巴的,究竟該怎么辦?

      醫者榮耀
      2025-12-11 12:05:05
      黃洋界守衛戰!誰是獵手,誰是獵物?

      黃洋界守衛戰!誰是獵手,誰是獵物?

      北山浮生
      2026-05-31 08:02:56
      2026-06-01 20:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12723文章數 176476關注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設計!

      頭條要聞

      浙江一600年古樹遷移后死亡 鎮領導被指給60萬封口費

      頭條要聞

      浙江一600年古樹遷移后死亡 鎮領導被指給60萬封口費

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現場圖!一雙兒女當花童

      財經要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

      態度原創

      旅游
      藝術
      房產
      健康
      軍事航空

      旅游要聞

      逛故宮的游客注意了,坤寧宮明起檢修請繞行

      藝術要聞

      吳鎮寫竹,清清爽爽

      房產要聞

      100億!1371畝!海口城市更新,再爆超級項目!

      干細胞臨床研究向患者收費?別踩坑

      軍事要聞

      韓國最大軍工企業爆炸 已造成5人死亡

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品成人午夜久久| mm1313亚洲国产精品无码试看| 熟女国产精品一区二区三| 视频国产一区二区视频| 国产亚洲一区二区三区在线| 亚洲色大成网站www永久男同| 国色天香成人一区二区| 中文字幕无码人妻| 国产AV在| 任你躁国产自任一区二区三区| 秋霞91大神| 国产成人综合日韩亚洲| 97国产成人无码精品久久久| 日韩精品成人一区二区三| 91高级网站| 国产原创精品视频| 最新亚洲精品国偷自产在线| 蜜臀av日韩精品一区二区| 国产成人a人亚洲精v品无码| 久久精品A一国产成人免费网站| 国产美女被遭强高潮网站不再 | 国产成人亚洲综合a∨婷婷| 激情综合五月丁香亚洲| 久久超碰97中文字幕亚洲| 99热精品毛片全部国产无缓冲| 免费黄色网址在线观看| 视频一区二区三区刚刚碰| 精品人妻无码一区二区三区四川人| 激情宗合网| 乱伦导航| 色吊丝一区二区中文字幕| 中文字幕av久久爽一区| 国产午夜激无码av毛片| 美女又大又黄www免费网站| 欧美人成精品网站播放| 人人人操| 蜜臀久久99精品久久久久久牛牛| 久久亚洲第一视频黄色| 亚洲第一极品精品无码久久| 国产激情艳情在线看视频| caoporn免费视频公开|