<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      τ0-WM:最大規模預訓練的開源具身世界模型來了

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      具身智能火了快兩年,現在,終于有團隊富裕到拿真機數據去砸預訓練了。

      而且一砸,就是17800小時

      這是啥概念?差不多相當于一臺機器人,連續兩年、一天24小時不停地被人類遙操作。

      當所有人都以為真機數據是奢侈品,難以scaling,只能放在最后的微調階段時。

      剛剛,上海創智學院副教授、智元機器人首席科學家羅劍嵐帶隊,發布全球最大規模的開源預訓練具身世界模型

      τ0-World Model(τ0-WM)



      整個τ0-WM參數量達到5B,預訓練數據規模高達約3萬小時。其中,真機遙操作數據第一次成了絕對主力,占到了1.78萬小時。

      而3萬小時的預訓練數據,是目前全球開源預訓練具身世界模型中最大的。

      τ0-WM不僅能像其他世界模型那樣預測未來畫面、生成動作。

      更重要的是,它還結合了測試時計算(Test-Time Computation),讓機器人在執行前對多個候選動作進行排序,選出最優方案,質量不夠就調用模擬器修正后再執行。

      基于這套方法;τ0-WM在四個長程精細操作任務,包括Toolbox(工具收納)、School Bag(書包裝物)、Badminton(羽毛球裝盒)和Faucet(水管接頭對接)的平均成功率超過了對標π0.5和Fast-WAM。



      可以說,羅劍嵐團隊此前在后訓練方面的持續投入,不僅攢出了足夠規模的真機數據,也攢出了把這些數據用于大規模預訓練的經驗。

      預訓練和后訓練這兩條線,終于對齊了。

      提議、模擬、評估,然后行動

      過去幾年,驅動機器人實現感知與控制的主流范式,大多是一種反應式的端到端策略:

      神經網絡看到畫面,立刻輸出動作。

      這種類似于人類“條件反射”的方式,在抓取、放置等標準任務里已經非常成功。

      但就像人類其實并不完全依賴肌肉記憶一樣,機器人在面對接觸密集、長程跨度、或者存在嚴重遮擋的復雜操作時,單純依靠“看見場景就輸出動作”的方式,也很容易導致不可逆的錯誤。

      很多時候,一步錯,后面可能就全錯了。

      所以,和許多世界模型方法一樣,τ0-WM選擇讓機器人在行動之前,先在腦子里“想象”一下:

      如果自己執行了這個動作,未來會發生什么,環境會怎么變化。

      但τ0-WM特別的地方在于,它不只“想一次”。

      為了讓機器人能夠三思而后行,研究引入了Test-Time Computation(測試時計算),讓機器人在真正執行前,可以多花一點時間,在內部“虛擬沙盤”里并行想象很多次,反復比較,甚至主動糾錯。

      也就是說,τ0-WM讓機器人不再只是看到畫面就立刻出手,而是像人一樣,先在腦子里盤一遍哪種路線更靠譜,再決定真正怎么做。

      某種程度上,這其實是在讓機器人學會一種“慢思考”。



      具體來說,τ0-WM的在線推理,分成三步。

      第一步,提議。

      首先,視頻動作模型(VAM)會根據當前多視角觀測、語言指令以及機器人狀態,一次性采樣出多組候選動作,同時生成對應的模糊未來畫面。

      這相當于機器人先在腦子里快速閃過幾種可能的做法。

      第二步,推演。

      其次,動作條件視頻模擬器會針對每組候選動作,進一步生成對應的多視角未來畫面。

      之所以是多視角,是因為真實機器人操作里,正面視角經常會被機械臂或物體擋住,所以模型必須還能“腦補”側面、頂部等其他視角下的未來狀態,才能真正判斷動作后果。

      第三步,評估與修正。

      最后,系統會先用RCS(Re-denoising Consistency Score)給動作打分:把候選動作重新加噪,再丟回模型重新去噪,觀察重建誤差。

      誤差越小,說明這個動作越接近模型訓練時學到的高質量動作分布,也越靠譜。

      但如果最優動作的分數依然不夠高,就會觸發第二層機制LAR(Low-quality Action Rectification)。

      系統會把所有候選動作送進視頻模擬器,預測對應未來狀態以及任務進度,挑出“任務推進效果最好”的未來畫面,再讓VAM基于這個“最優未來”重新生成動作。

      最終,模型基于這三步走,輸出最好的動作。

      值得一提的是,雖然很多世界模型在訓練時也會預測未來,但部署時為了推理速度,往往會把未來預測模塊直接去掉。

      τ0-WM則堅持在推理階段保留“顯式未來想象”,并把這些未來畫面真正用于后續動作的打分、篩選與修正。

      也就是說,對τ0-WM而言,“想象未來”不是訓練技巧,而是機器人做決策的一部分。

      在這三階段pipeline背后,τ0-WM主要由兩個共享視頻擴散backbone組件驅動:



      負責“提議動作”的VAM,以及負責“沙盤推演”的動作條件視頻模擬器。

      前者基于Wan2.2-5B視頻生成模型,同時輸出未來視頻latent和動作chunk;后者則專門負責評估未來狀態和任務進度。

      而在訓練階段,三類不同來源的數據,也通過modality-specific supervision masks被統一揉進了同一個體系:

      有動作標簽的數據,同時訓練視頻與動作;沒有動作標簽的數據,則只訓練視頻分支。

      3萬小時預訓練數據

      接下來,就到了τ0-WM這次最夸張、也最“重資產”的部分:訓練數據

      這近3萬小時的預訓練數據,不只刷新了開源具身世界模型的規模紀錄,更重要的是,它正在打破行業對具身智能數據金字塔的固有認知。

      整個τ0-WM的訓練數據,主要由三部分組成,而且每一類數據的角色都不一樣。



      第一類,是真機遙操作數據,總量17800小時。

      這部分數據來自雙臂機器人、多視角采集,而且動作空間和真實部署環境完全對齊。

      某種程度上,它也是整個數據體系里“最貴”的部分。

      因為真機采集不僅慢,還特別吃人力和硬件資源。但與此同時,它也是質量最高的數據。

      這批數據提供了最核心的動作監督信號,可以說是τ0-WM敢做大規模預訓練的真正根基。

      第二類,是6500小時的UMI數據

      簡單來說,UMI(Universal Manipulation Interface)是一種不依賴特定機器人平臺的數據采集方式。

      相比真機遙操作,它覆蓋的物體種類和操作場景會豐富很多。但問題也很明顯,它的動作空間,并不完全等同于真實機器人部署時的動作空間。

      所以在τ0-WM中,UMI數據更像是在補“行為多樣性”。

      它不一定最精準,但能讓模型見過更多操作方式、更多物體、更多長尾場景。

      第三類,則是3000小時的人類第一視角EgoCentric數據

      這部分數據的采集成本最低,但覆蓋范圍卻最大。

      里面會包含大量長尾交互行為,以及很多機器人暫時很難專門采集到的真實場景。

      不過,它有一個問題:沒有機器人動作標簽。

      也就是說,模型只能“看”,不能直接學“機器人該怎么動”。因此,這部分數據只參與視頻分支訓練,不參與動作預測。

      它更像是在幫助模型學習:物體會怎么運動,人與環境會怎么交互,場景狀態會如何變化。

      看到這里,其實會冒出一個很自然的問題:

      既然人類視頻沒有動作標簽,UMI的數據格式又和真機動作空間不完全一致,那模型到底怎么把它們一起訓進去?

      τ0-WM這里用了一個很巧的設計——Modality-specific supervision masks(模態特定監督掩碼)。

      簡單來說,對于有動作標簽的數據,就同時訓練視頻和動作,沒有動作標簽的數據,就把動作部分mask掉,只訓練視覺分支。

      這樣一來,不同來源、不同模態、不同動作空間的數據,就第一次被真正揉進了同一個預訓練體系里。

      實驗結論

      在實驗部分,團隊最核心想驗證的一件事,其實就是:

      Test-Time Computation(測試時計算),到底有沒有用。

      抽紙巾放進盒子撿筆放進盒子兩個任務上,這兩個任務在3萬小時預訓練數據中從未出現過,屬于模型完全沒見過的新任務。

      研究采用了比常規做法更嚴格的評測標準,不允許重試,單次機會,20輪取平均。



      結果表明,不加測試時計算時,裸策略平均成功率只有43%。加入第一層RCS動作篩選后,提升到50%。

      再疊加LAR模擬器修正之后,最終來到60%。提升最明顯的是更難的Pen→Box任務,成功率直接從30%拉到了50%。

      此外,研究還專門對比了其他測試時引導方法。同樣條件下,Classifier-Free Guidance(CFG)成功率只有20%,Action Coherence Guidance(ACG)為38%,τ0-WM則達到60%。

      這里最關鍵的區別就來自之前提到的,CFG和ACG,本質上還是在檢查“動作本身是否連貫”。

      而τ0-WM評估的,則是:

      “這個動作做完之后,未來世界會變成什么樣,任務有沒有真的往前推進?!?/p>

      也就是說,前者關注的是動作空間內部的一致性。

      而后者,開始真正把“未來后果”納入了決策。

      (其余實驗細節可參考論文)

      數據金字塔,要變樣了

      如果放到整個具身智能行業的數據路線里看,τ0-WM這次真正特別的地方,其實會更明顯。

      過去,具身行業的數據體系一直像一個很典型的金字塔。



      最底層,是互聯網視頻數據。

      規模最大、最便宜,但沒有機器人動作標簽,只能讓模型學一些通用視覺和世界變化規律。

      再往上一層,是仿真數據。

      機器人終于開始“動起來”了,但問題在于,仿真和真實物理世界之間,始終隔著一道巨大的sim2real gap。

      而金字塔最頂層,則是真機遙操作數據。質量最高,動作空間和真實部署完全一致,但行業過去的普遍認知一直是:

      太貴、太少、根本不可能scale。

      所以大多數團隊,都會把真機數據留到最后微調階段再用。

      但今年,一個新的變化開始出現了,Ego-Centric第一視角數據突然崛起。

      大家開始意識到,人類第一視角視頻雖然沒有機器人動作標簽,但它天然包含了大量真實世界里的交互過程、物體變化和長尾操作。

      于是整個行業,開始集體all in Ego數據。

      某種程度上,Ego-Centric正在變成數據金字塔里的“新中層”,比互聯網視頻更接近真實交互,又比真機數據便宜得多。

      但問題是,絕大多數團隊做到這里,其實就停下來了,因為大家仍然默認真機數據依然貴到不可能成為預訓練主體。

      但τ0-WM第一次把這個邏輯反過來了。

      他們一邊引入Ego-Centric數據,一邊直接用17800小時真機遙操作數據給預訓練打底。

      這件事也不是突然發生的。

      回看羅劍嵐團隊過去一年多的工作,會發現一條非常清晰的主線,他們搭的不是單點模型,而是一整套真實世界數據飛輪。

      2026年1月,SOP搭起了規?;恼鏅C數據采集和回流基礎設施。



      2026年4月,LWD把大規模強化學習引入具身VLA的后訓練,構建了部署即訓練的數據飛輪,機器人跑得越多,回流數據越多,模型越強,又能跑更多任務。失敗軌跡也第一次被系統性納入學習。



      而當真機交互數據積累跨過某個臨界點之后,一件以前沒人敢想的事,就自然發生了:

      真機數據終于開始從“后訓練耗材”,變成“預訓練燃料”。

      直到這里,具身智能里的“預訓練—真機部署—數據回流—再預訓練”這條鏈路,才第一次真正開始跑通。

      項目網站:https://finch.agibot.com/research/tau0-wm
      項目github:https://github.com/sii-research/tau-0-wm
      模型huggingface:https://huggingface.co/sii-research/tau-0-wm

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      襄陽“割四賠五”后續:23家派出所出手,網紅出面也無力扭轉局面

      襄陽“割四賠五”后續:23家派出所出手,網紅出面也無力扭轉局面

      觀察鑒娛
      2026-05-31 19:01:32
      印尼左右為難,22天后想悄悄松手,結果發現趕走國人產業就崩了!

      印尼左右為難,22天后想悄悄松手,結果發現趕走國人產業就崩了!

      聞識
      2026-06-01 04:34:45
      這對文玩核桃有200年歷史?各位上眼吧

      這對文玩核桃有200年歷史?各位上眼吧

      鴻璐宣
      2026-05-31 12:05:03
      俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

      俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

      混沌錄
      2026-05-29 23:26:12
      35頁PPT瘋傳:洛陽女子1女談3男,每天卡時間,都已談婚論嫁

      35頁PPT瘋傳:洛陽女子1女談3男,每天卡時間,都已談婚論嫁

      烈史
      2026-05-30 13:23:41
      界面調查|起底留神峪煤礦及實控人任鐵柱:草根出身,煤改中幸存,管理混亂釀成大禍

      界面調查|起底留神峪煤礦及實控人任鐵柱:草根出身,煤改中幸存,管理混亂釀成大禍

      界面新聞
      2026-05-31 16:40:39
      250億元,賴清德偷竄代價曝光,島內批:為牟取政治利益“自甘下跪”

      250億元,賴清德偷竄代價曝光,島內批:為牟取政治利益“自甘下跪”

      環球網資訊
      2026-06-01 06:36:08
      做好事還是做壞事?男子丟了手機獻完血順走護士手機,民警12小時內將其抓獲

      做好事還是做壞事?男子丟了手機獻完血順走護士手機,民警12小時內將其抓獲

      大風新聞
      2026-06-01 10:51:03
      鄧正紅軟實力哲學:物質奇點的“無限悖論”違背物理世界基本規則

      鄧正紅軟實力哲學:物質奇點的“無限悖論”違背物理世界基本規則

      鄧正紅軟實力
      2026-06-01 11:50:57
      鬧笑話了!黃仁勛攤牌:看不上華為韜定律,卻被業內專家說不專業

      鬧笑話了!黃仁勛攤牌:看不上華為韜定律,卻被業內專家說不專業

      兵鑒史
      2026-05-30 14:32:11
      女子嫌丈夫懷疑她出軌,只能讓情夫殺了丈夫,2008年可憐了2個娃

      女子嫌丈夫懷疑她出軌,只能讓情夫殺了丈夫,2008年可憐了2個娃

      漢史趣聞
      2026-05-31 15:41:25
      成人網紅邦妮自曝惡心計劃:6月辦尿淋派對,粉絲可尿她發生關系

      成人網紅邦妮自曝惡心計劃:6月辦尿淋派對,粉絲可尿她發生關系

      赴一場山海啊
      2026-06-01 00:27:25
      6-2!巴西大輪換仍橫掃世界杯參賽隊,皇馬1.5億巨星傳射+世界波

      6-2!巴西大輪換仍橫掃世界杯參賽隊,皇馬1.5億巨星傳射+世界波

      我愛英超
      2026-06-01 07:34:53
      Lisa懷了驢老三的孩子?。?>
    </a>
        <h3>
      <a href=Lisa懷了驢老三的孩子!? 八卦瘋叔
      2026-06-01 10:27:11
      急需重建!廣廈0-3脆敗上海,隊友內訌曝光,三大拖油瓶藏不住了

      急需重建!廣廈0-3脆敗上海,隊友內訌曝光,三大拖油瓶藏不住了

      八斗小先生
      2026-06-01 11:36:36
      女子蹭卡進山姆待一天,有吃有喝空調還能吹到飽

      女子蹭卡進山姆待一天,有吃有喝空調還能吹到飽

      映射生活的身影
      2026-05-31 21:37:09
      韓國談抗美援朝:超400萬人犧牲,中國并非援助,而是戰爭主力!

      韓國談抗美援朝:超400萬人犧牲,中國并非援助,而是戰爭主力!

      興趣知識
      2026-05-31 00:56:50
      百萬網紅邊牧被賣后續!母親崩潰怒斥,當事人放話,收狗人曝內情

      百萬網紅邊牧被賣后續!母親崩潰怒斥,當事人放話,收狗人曝內情

      奇思妙想草葉君
      2026-05-30 22:22:07
      襄陽割四賠五新后續:大批麥客連夜撤走,當地部門緊急出手整改

      襄陽割四賠五新后續:大批麥客連夜撤走,當地部門緊急出手整改

      奇思妙想草葉君
      2026-05-31 23:01:42
      張雪機車收獲兩個第8名,張雪發文反對車手德比斯攬責:“知道短板了就改進,相信下一代賽車更強”

      張雪機車收獲兩個第8名,張雪發文反對車手德比斯攬責:“知道短板了就改進,相信下一代賽車更強”

      都市快報橙柿互動
      2026-06-01 08:57:58
      2026-06-01 13:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12720文章數 176476關注度
      往期回顧 全部

      科技要聞

      關停三年后,天涯社區今起開放訪問

      頭條要聞

      普京將烏無人機殘骸交于美方 被指發表"極其危險言論"

      頭條要聞

      普京將烏無人機殘骸交于美方 被指發表"極其危險言論"

      體育要聞

      哭過之后,文班亞馬想給波波維奇打電話

      娛樂要聞

      張凌赫活動商場玻璃被擠爆5人受傷

      財經要聞

      網紅驅蚊產品,標注化妝品竟含農藥成分

      汽車要聞

      上市三周交付3603臺!華境S躋身旗艦大六座第一梯隊

      態度原創

      健康
      手機
      藝術
      親子
      軍事航空

      嘗試干細胞療法如何避免踩坑?

      手機要聞

      小米17系列即將突破500萬銷量,國產安卓第一人有意見嗎?

      藝術要聞

      吳鎮寫竹,清清爽爽

      親子要聞

      2025年我國批準兒童用藥138個,創歷史新高

      軍事要聞

      韓國最大軍工企業爆炸 已造成5人死亡

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩欧美在线综合视频| 国产福利免费在线观看| 国产亚洲一二三区精品| wwww亚洲熟妇久久久久| 精品久久久久久久久久香蕉| 国内精品久久久人妻中文字幕| 极品少妇被后入内射视| 日韩精品一区二区三区蜜臀| 中文字幕亚洲在线| av色导航| 亚洲AV成人无码国产一区二区| 国产精品爆乳在线播放| 免费国产一级 片内射老| 亚洲精品国产一二三区| 科技| 亚洲国产精品国自产拍A| 国产精品自拍中文字幕| 午夜福利看片在线观看| 黄片视频在线观看| 日本久久高清一区二区三区毛片 | 久久久无码人妻精品无码| 岛国av无码免费无禁网站| 中文字幕有码在线观看| 又黄又爽又色的少妇毛片| 女人15毛片a级16女人水真多| 亚洲区日韩精品中文字幕下载| 久久综合国产色美利坚| 一本高清码二区三区不卡| 免费观看黄色网址| 日本高清一区免费中文视频| 午夜福利电影| 国产高清吹潮免费视频| 欧美成人动态图| 亚洲成人av在线资源| 国产精品香港三级国产av| 成人欧美一区二区三区| 中文字幕第一页国产| 日本爱爱精品一区二区| 中文韩国午夜理伦三级好看 | 少妇无码av无码专区在线观看 | 在线无码精品秘 在线观看|