<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      剛剛,全球?個“事件級預(yù)測”具身智能世界模型來了!

      0
      分享至

      夢瑤 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      讓機器人把杯子遞過去——

      這個看似簡單的任務(wù),對當前的具身大模型來說,卻是一場逐幀填空的考試:

      預(yù)測0.1秒后手在哪、0.2秒后手在哪……

      把一個完整動作切成幾十張幾乎雷同的畫面,讓模型一幀一幀去學。

      結(jié)果,模型記住的是「手指每幀挪幾毫米」,而不是「把杯子抓住」這個目標,換個杯子、換張桌子,節(jié)奏稍變,立刻翻車!!

      剛剛,自變量機器人團隊帶來全新解法——

      發(fā)布全球首個「事件級預(yù)測」具身智能世界模型WALL-WM。



      WALL-WM把世界模型的預(yù)測單位從時間幀換成了語義事件

      模型不再問0.1秒后是什么樣,而是直接想象抓住杯子那一刻是什么樣,跳過中間所有冗余幀,并基于這個想象同步生成抵達它的動作。

      由于「事件」本身就是跨場景、跨物體的通用語義抽象,WALL-WM在跨場景泛化上也展現(xiàn)出明顯更穩(wěn)的表現(xiàn)。目前,這一模型已在論文《WALL-WM: Carving World Action Modeling at the Event Joints》中發(fā)布。

      誒,這下好了。

      以后小機器人們干活兒,也能更像人類一樣抓重點,靈活應(yīng)對物理世界的各種抓馬情況了!

      從按幀學動作,到按「事件」理解世界

      這幾年,主流VLA模型基本都在沿著一條路往前走:

      給模型一幀當前畫面,再加一句語言指令,讓它預(yù)測接下來一段「固定長度」的動作塊。

      這個做法當然很工程化,也確實方便訓練,但問題在于真實世界的機器人動作,并不會乖乖按照固定時間窗口發(fā)生。

      比如讓機器人抓起一個杯子,它里面至少包含接近、接觸、閉合夾爪、提起、移動、放下幾個階段。

      每個階段的物理狀態(tài)都不一樣,接觸前和接觸后更是完全不同的控制問題。

      針對這個bug,自變量機器人在論文中提出了一個非常「反常識」的行業(yè)判斷——

      文本、視覺、動作這三類信息,其實是天然沒辦法「完全對齊」的……(doge)



      論文中提到,文本、視覺、動作在高維空間里有不同的「流形幾何」,也有完全不同的「時間尺度」

      文本是高層、低熵的語義意圖;視覺是連續(xù)演化的高維觀察;動作則被物理世界強約束,對接觸狀態(tài)、時間精度和微小擾動都極其敏感。

      如果直接把三者壓進同一個共享空間,預(yù)訓練表示很容易偏離原本的先驗幾何!!

      所以說,這也是為啥目前行業(yè)內(nèi)很多VLA在真機上視覺-語言-動作對齊的表現(xiàn),遠不如其底座VLM應(yīng)有的?平…..

      既然傳統(tǒng)VLA問題這么多,自變量團隊也重新追問了一個更為根本的問題:機器人到底該按什么單位學會一個動作?

      基于這個思路,團隊出了WALL-WM世界模型,讓機器人按event-centric的方式去訓練和執(zhí)行。

      所謂的event-centric,簡單說就是把機器人任務(wù)切在真正有語義、有物理動作變化的「事件邊界」上,然后在這些事件數(shù)據(jù)上進行模型訓練。

      比如伸手、抓取、抬升、移位、放置,都可以看成一個個圍繞動作展開的語義事件。

      它能被語言說清楚,也能被視頻完整記錄,還能落到機器人的動作軌跡上,這樣就可以把語言、畫面和動作真正串了起來~

      WALL-WM泛化能力更強的關(guān)鍵也就在這里:讓機器人圍繞事件理解世界變化,再把這種理解轉(zhuǎn)成可執(zhí)行動作。

      而這,才是具身智能「世界模型」應(yīng)有的形態(tài)。

      WALL-WM的核心鏈路:先預(yù)演,再執(zhí)行

      具體來說,WALL-WM做的不是直接從畫面生成動作。

      而是先讓模型理解「下一個事件會讓世界怎么變」,再把這種變化翻譯成機器人該執(zhí)行的軌跡。

      背后是一整套從感知到控制的路徑重構(gòu),自變量團隊將其拆成了三層:



      第一層,是事件指令入口

      其作用很直接,就是告訴模型「下一步要做什么」,比如抓起杯子、放進籃子、把積木擺到指定位置。

      第二層,是事件世界模型

      模型會圍繞這個事件,去預(yù)演接下來畫面里的變化:物體會怎么動,場景會怎么變,機械臂又該如何參與其中。

      第三層,是多視角時空融合

      機器人看到的往往不止一個角度,頭部相機、腕部相機提供的是不同位置的信息。WALL-WM會把這些視角統(tǒng)一起來,讓模型在執(zhí)行動作之前,先把現(xiàn)場看得更完整。

      不僅如此,在這個架構(gòu)中WALL-WM還用幾組關(guān)鍵設(shè)計,把這條鏈路變成了一個盡量保住視頻先驗、又能長出動作能力的系統(tǒng)。

      同?個基座,兩種推理模式

      在執(zhí)行階段,WALL-WM不會只生成一段死板的固定動作,而是讓同一套模型權(quán)重可以跑出兩種推理模式。

      首先就是事件模式(Event Mode)。

      當上層規(guī)劃器已經(jīng)把任務(wù)拆好,模型就可以直接根據(jù)這個事件描述,輸出一段長度可變的動作,這個模式更貼近WALL-WM的核心思想:動作不必被硬切成固定窗口,而是順著語義事件自然展開。

      另一種是統(tǒng)一模式(Unified mode)

      當沒有外部規(guī)劃器,機器人需要自己一邊看、一邊想、一邊控制時,VLM會結(jié)合當前視覺輸入和任務(wù)指令,在線生成中間推理,再把結(jié)果交給動作模型輸出「固定長度」的動作塊。

      這個模式更適合實時閉環(huán)控制,因為它能保持穩(wěn)定的控制頻率。

      這兩種推理模式的關(guān)鍵在于,其共享同一套權(quán)重,執(zhí)行過程中還能按動作塊切換,不需要為了不同場景重新訓練模型,所以模型的用法也更靈活。

      它既能接在更大的機器人系統(tǒng)后面,專門負責把規(guī)劃好的事件穩(wěn)定執(zhí)行出來,也能自己完成從看懂任務(wù)、判斷下一步,到生成動作的完整流程。

      視頻模型和動作模型分工生長

      不僅如此,WALL-WM沒有直接把視頻模型改成動作模型,而是把兩條能力「拆開」來長——

      讓機器人先預(yù)演世界會怎么變,再決定自己該怎么動

      具體來說,視頻模型會承載互聯(lián)網(wǎng)視頻訓練出來的動態(tài)先驗,負責理解物體怎么動、場景怎么變。

      而動作模型從零初始化,專門學習如何把這些視覺變化翻譯成機器人軌跡。

      兩者在每一層做單向耦合:動作流讀取視頻流的視覺證據(jù),視頻流保留原本的動態(tài)先驗,避免被動作數(shù)據(jù)過早「帶偏」。

      這樣一來,模型既能守住視頻基座已有的世界理解能力,又能讓動作能力在大規(guī)模訓練中持續(xù)增長。

      而這,正是絕?多數(shù)VLA在?規(guī)模訓練時做不到的~

      幾何感知的多視角融合

      大家都知道,現(xiàn)實生活中大多機器人通常不止一個攝像頭:一般是頂視看全局,腕部相機看手邊細節(jié)。

      但事實上多視角并不會天然對齊,簡單做跨視角注意力,模型很容易把它學成特征混合,看起來相關(guān)就連在一起,卻未必符合真實空間關(guān)系,于是WALL-WM用了兩個機制來解決——

      一個是視錐掩碼

      它會根據(jù)相機標定信息,判斷兩個圖像塊在三維空間里有沒有可能看到同一片區(qū)域,物理上對不上的關(guān)聯(lián),直接從注意力路徑里切掉,這樣一來,模型跨視角看過去的地方,至少先符合真實世界的幾何關(guān)系。

      另一個是管狀掩碼

      它會隨機遮掉某個視角里一段連續(xù)的時空區(qū)域,讓模型不能只靠單一視角內(nèi)部的時間信息補答案,只能從其他相機里找線索。



      一個限制錯誤連接,一個制造跨視角需求,配合免標定、此外可學習的相機旋轉(zhuǎn)位置編碼,天然?持多本體多視角?規(guī)模混合訓練。

      這樣一來,跨視角注意力就從可有可無的能力,變成訓練中反復(fù)使用的幾何對應(yīng)能力。

      階梯式思維鏈解碼

      在真實物理場景中,機器人做復(fù)雜任務(wù)時,往往需要「想一想」具體怎么做。

      CoT能提升這類決策質(zhì)量,但傳統(tǒng)逐token生成太慢,對聊天模型來說慢一點還能接受;對機器人來說動作控制可等不起…

      針對這個問題,WALL-WM給出的解法是:用Staircase Layer-Relay CoT Decoding(階梯式思維鏈解碼),保留、可讀的思維鏈,同時改造解碼方式。

      把原本一層層、一個token接一個token的串行過程,拆成「低層只跑一次,高層階梯式展開」。



      具體來說,底層負責抽取共用的推理狀態(tài),只做一次;后面的多個思維token則在高層并行完成。

      它生成的仍是連續(xù)CoT latent,但這些latent可以通過凍結(jié)LLM還原為文本推理軌跡,因此保留了一定可解釋性,同時減少逐token解碼帶來的延遲。

      這樣一來,可解釋性與實時性,第?次不??選?。

      事件級世界模型背后,是一次從數(shù)據(jù)到部署的系統(tǒng)級重構(gòu)

      WALL-WM真正想解決的,遠不止模型結(jié)構(gòu)的事件級改造。

      背后真正撐起這套能力的,還有一套從數(shù)據(jù)采集、層級標注到采樣訓練的一整套「系統(tǒng)工程」。

      在數(shù)據(jù)結(jié)構(gòu)上,WALL-WM沒有只依賴機器人真機數(shù)據(jù),而是搭了一個數(shù)據(jù)金字塔

      底層是百萬級網(wǎng)絡(luò)通用視頻,用來補足開放世界里的視覺和運動先驗;再往上,是人類動作視頻、第一視角視頻、公開機器人數(shù)據(jù)、自采視頻-動作數(shù)據(jù)。

      而最頂端,才是真機接管、糾錯和恢復(fù)數(shù)據(jù)。

      每?層都是對上?層某條約束的可控放松,越往上越貼近真機部署, 越往下越接近開放世界的視覺先驗。



      不僅如此,為了讓事件真正進入訓練,WALL-WM沒有把一條機器人軌跡當成一整段視頻粗暴喂給模型。

      而是采用了四級層級化標注+雙聚類采樣的方式,把每條軌跡拆成任務(wù)、子任務(wù)、動作、片段四層,這樣模型看到的就不再是混在一起的長序列,而是一個個邊界更清楚的行為單元。

      論文里還有一個很值得注意的發(fā)現(xiàn),那就是當文本描述按照動作邊界被切分后,語言分布和視覺-語言聯(lián)合分布都變得更均衡了。

      這也意味著,原本容易被淹沒在長任務(wù)里的稀有指令、特殊場景組合,會更自然地在訓練階段暴露給模型。

      這樣的方式不僅幫助模型理解動作邊界,也順手改善了數(shù)據(jù)分布,讓長尾樣本更容易被訓練到~

      除了模型和數(shù)據(jù),WALL-WM還專門補了一塊底層訓練系統(tǒng)

      目前事件級建模要同時處理視頻、動作、多視角和長序列,訓練成本非常高,如果系統(tǒng)撐不住,方法再好也很難真正放大!

      而自變量團隊給出的解法是,采用分布式「Muon」來提升收斂和穩(wěn)定性(DMuon),并用多事件打包,把多個事件塞進同一條長序列里訓練,降低單條樣本帶來的計算浪費。

      到了部署階段,再通過蒸餾減少去噪步數(shù),用FP8量化降低顯存和推理成本,讓這套大模型更接近機器人實時控制所需的延遲,讓模型更適合實時控制。

      實驗結(jié)果

      在具體實驗環(huán)節(jié),WALL-WM的價值則一步體現(xiàn)在大規(guī)模「真機泛化能力」上。

      其不僅能執(zhí)行固定模板任務(wù),還能支持不同粒度的event-centric文本輸入,不僅如此,在新指令、新物體、新場景和新任務(wù)、新本體里繼續(xù)完成動作推理與執(zhí)行。

      • Embodied Video Generation:相比Wan2.1/Wan2.2,WALL-WM在Motion Quality、Semantic Consistency、Physical Plausibility三個具身相關(guān)維度全面領(lǐng)先:



      • 3D Awareness(CO3Dv2):在Point Error與Depth Error上優(yōu)于WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2:



      • 真機Core15 L1基準:基礎(chǔ)任務(wù)、推理任務(wù)、靈巧操作、泛化場景下取得的任務(wù)完成分數(shù),均顯著超過π0.5、DreamZero,在抽象指令設(shè)定下是當前完成度最高的L1模型之一:



      論文開頭,自變量機器人團隊引用了柏拉圖《斐德羅篇》中的一句話——

      依乎天理,因其固然。



      放到整個具身智能行業(yè)里來看,這句話很值得深思,也恰恰點出了WALL-WM的核心——

      物理世界的真實任務(wù),從來不會按照固定時間窗口整齊發(fā)生,它更像一串自然銜接的事件,伸手、接觸、抓取、移動、放下,每一個關(guān)鍵變化,都對應(yīng)著動作里的自然關(guān)節(jié)

      而WALL-WM做的,就是讓模型沿著這些「事件關(guān)節(jié)」去理解世界、預(yù)測變化、生成動作。

      而這,也給機器人的泛化能力找到了一個更自然的支點:

      當語言變了、物體變了、場景變了、任務(wù)組合變了甚至本體變了,機器人依然可以順著事件邊界判斷,現(xiàn)在進行到哪一步,下一步世界會怎么變,動作又該如何落下去。

      目前,具身智能行業(yè)的競爭正在從跑分和Demo演示走向真實部署,行業(yè)比拼也會從誰看起來更會動,走向「誰更能理解變化、組織行動、穩(wěn)定泛化」。

      而自變量機器人這一次,已經(jīng)用一套自洽的工程化范式,提前把這條路的領(lǐng)先成果擺了出來。

      [1]GitHub:https://github.com/X-Square-Robot/wall-x

      [2]項?主?:
      https://x2robot.com/pages/wm

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      當完美代碼撞上物理時差:一次僅一秒的彈跳,如何讓空客A320瞬間腦死亡

      當完美代碼撞上物理時差:一次僅一秒的彈跳,如何讓空客A320瞬間腦死亡

      平流層散步者
      2026-05-31 22:05:25
      就在剛剛,中國國民黨正式宣布

      就在剛剛,中國國民黨正式宣布

      安安說
      2026-06-01 11:39:08
      美論壇:孟買已領(lǐng)先上海30年,可為何中國人仍覺得印度落后?

      美論壇:孟買已領(lǐng)先上海30年,可為何中國人仍覺得印度落后?

      怪味歷史連連看
      2026-05-31 13:25:37
      被時代殺死的天才:真正締造國民黨的人,根本不是孫中山

      被時代殺死的天才:真正締造國民黨的人,根本不是孫中山

      老達子
      2026-06-01 06:40:03
      利物浦開啟個人條款談判!8700萬鎊新星有望成為伊勞拉上任首簽

      利物浦開啟個人條款談判!8700萬鎊新星有望成為伊勞拉上任首簽

      夜白侃球
      2026-06-01 11:02:57
      你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

      你最接近生理極限的一次經(jīng)歷是什么?網(wǎng)友分享讓人目瞪口呆!

      夜深愛雜談
      2026-04-09 19:39:13
      趙海燕兒子大婚好低調(diào)!喝60塊的喜酒,現(xiàn)場烤全羊,婚車都是贊助

      趙海燕兒子大婚好低調(diào)!喝60塊的喜酒,現(xiàn)場烤全羊,婚車都是贊助

      裕豐娛間說
      2026-05-31 07:29:17
      A股:今天,6月1日,行情很反常,三個信號來了!

      A股:今天,6月1日,行情很反常,三個信號來了!

      明心
      2026-06-01 11:44:04
      外賣大戰(zhàn)的“炮灰”,過剩的1600萬騎手

      外賣大戰(zhàn)的“炮灰”,過剩的1600萬騎手

      深水財經(jīng)社
      2026-05-31 12:14:09
      沒穿幾次,碎得慘不忍睹!上海女子反映買到adidas“陳年老鞋”,售出時已經(jīng)“壓箱”4年多,客服稱“庫存信息屬店鋪隱私無法提供”

      沒穿幾次,碎得慘不忍睹!上海女子反映買到adidas“陳年老鞋”,售出時已經(jīng)“壓箱”4年多,客服稱“庫存信息屬店鋪隱私無法提供”

      大風新聞
      2026-05-31 21:31:07
      一夜燒光3.6億!榛樹導(dǎo)彈砸進自家陣地,普京遭遇年度最大鬧劇?

      一夜燒光3.6億!榛樹導(dǎo)彈砸進自家陣地,普京遭遇年度最大鬧劇?

      安珈使者啊
      2026-06-01 09:29:39
      Model Y不再是第一!純電SUV新霸主誕生

      Model Y不再是第一!純電SUV新霸主誕生

      沙雕小琳琳
      2026-06-01 09:57:11
      震撼!超150萬人參加阿森納奪冠游行 賴斯高歌:定位球又來了哈哈

      震撼!超150萬人參加阿森納奪冠游行 賴斯高歌:定位球又來了哈哈

      風過鄉(xiāng)
      2026-06-01 06:07:36
      王菲現(xiàn)實長什么樣?路人鏡頭才是照妖鏡,突然理解謝霆鋒的專一了

      王菲現(xiàn)實長什么樣?路人鏡頭才是照妖鏡,突然理解謝霆鋒的專一了

      臨云史策
      2026-06-01 11:35:00
      江蘇一市紀委監(jiān)委通報:丁匯成被查,涉嫌嚴重違紀違法

      江蘇一市紀委監(jiān)委通報:丁匯成被查,涉嫌嚴重違紀違法

      新浪財經(jīng)
      2026-06-01 13:15:09
      被向太爆料“出道前坐過牢”,古天樂6個字回應(yīng)

      被向太爆料“出道前坐過牢”,古天樂6個字回應(yīng)

      紅星新聞
      2026-05-30 13:59:22
      全球第一大車企中止純電動汽車的開發(fā)

      全球第一大車企中止純電動汽車的開發(fā)

      新浪財經(jīng)
      2026-05-30 15:28:07
      “榴蓮僅退款”商家受死亡威脅!女孩哥哥揚言要滅門,已刑事立案

      “榴蓮僅退款”商家受死亡威脅!女孩哥哥揚言要滅門,已刑事立案

      風月得自難尋
      2026-05-30 21:04:17
      長壽的人,手背多有這4個表現(xiàn),占一個都不錯,快看看你有幾個?

      長壽的人,手背多有這4個表現(xiàn),占一個都不錯,快看看你有幾個?

      芹姐說生活
      2026-05-31 22:41:04
      優(yōu)質(zhì)內(nèi)容創(chuàng)作者為何青睞上海?他們提到政策支持、行業(yè)生態(tài)與城市氛圍

      優(yōu)質(zhì)內(nèi)容創(chuàng)作者為何青睞上海?他們提到政策支持、行業(yè)生態(tài)與城市氛圍

      澎湃新聞
      2026-05-30 16:54:28
      2026-06-01 13:40:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12720文章數(shù) 176476關(guān)注度
      往期回顧 全部

      科技要聞

      關(guān)停三年后,天涯社區(qū)今起開放訪問

      頭條要聞

      普京將烏無人機殘骸交于美方 被指發(fā)表"極其危險言論"

      頭條要聞

      普京將烏無人機殘骸交于美方 被指發(fā)表"極其危險言論"

      體育要聞

      哭過之后,文班亞馬想給波波維奇打電話

      娛樂要聞

      張凌赫活動商場玻璃被擠爆5人受傷

      財經(jīng)要聞

      網(wǎng)紅驅(qū)蚊產(chǎn)品,標注化妝品竟含農(nóng)藥成分

      汽車要聞

      上市三周交付3603臺!華境S躋身旗艦大六座第一梯隊

      態(tài)度原創(chuàng)

      本地
      旅游
      教育
      房產(chǎn)
      公開課

      本地新聞

      用剪紙的方式,打開江蘇揚州

      旅游要聞

      逛故宮的游客注意了,坤寧宮明起檢修請繞行

      教育要聞

      廣東財經(jīng)大學:值得填報嗎?熱門專業(yè)就業(yè)現(xiàn)狀及報考分析#搜索千校視頻計劃

      房產(chǎn)要聞

      紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产精品毛片一区视频播| 超碰97人人做人人爱综合| 久久久无码专区| 日韩1区2区3区| 超碰人人爱| 97人妻在线| 国产成人免费永久在线平台| 国产玖玖| 亚洲精品国产精品国自产观看| 午夜无码福利伦利理免| av天堂久久天堂av| 欧美人与动人物牲交免费观看| 亚洲天堂一区h| 狼友自拍| 超碰人人擦| 国产91午夜福利精品| 伊人超碰| 337p日本欧洲亚洲大胆色噜噜| 亚洲精品乱码久久久久99| 成人黄色在线| 国产99久久精品一区二区| 中文精品字幕人妻熟女| 无码综合天天久久综合网色吧影院| 亚洲欧美综合精品成人网站| 国产呻吟久久久久久久92| 原平市| 又粗又大网站| 性xxxxfreexxxxx牲性| 亚洲无码五区| 久久精品国产精品第一区| 91高清在线观看| 熟妇人妻系列av无码一区二区| 国产又粗又大又爽91嫩草| 亚洲最大无码中文字幕| 熟女人妻AV| 【_undefined?-?P站免费版?-?永久免费的福利视频平台】https://17630364268551281430832.nx37lbnqvd.com/column/all/show?t=&tags=%E5%90%8E%E5%85%A5%E9%AA%91%E9%A9%AC&page=2&orderBy=createTime&expanded=1 | 久久久久国产精品熟女影院| 久久夜色精品国产亚洲a| 无码成人AV在线一区二区| 欧美精品卡一卡二| 91尤物国产尤物福利在线|