<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      具身智能邁入下半場,RoboMemArena全面評測機器人記憶系統(tǒng)

      0
      分享至



      具身基座模型(VLA、世界模型)這兩年進步很快。但只要任務(wù)一長、場景一復(fù)雜,一個很現(xiàn)實的問題就會立刻出現(xiàn):機器人很多時候不是「不會做」,而是「記不住」。比如:

      • 柜子之前有沒有打開過?
      • 物體被遮擋之前放到了哪里?
      • 某個重復(fù)動作已經(jīng)執(zhí)行了幾次?
      • 人類剛才示范過的順序到底是什么?

      這些都不是只看當前一幀圖像就能解決的問題。也正因為如此,我們越來越覺得:現(xiàn)有很多機器人 benchmark 雖然在操作上已經(jīng)很豐富,但對 memory-dependent long-horizon manipulation 的刻畫還遠遠不夠

      于是,香港科技大學(xué)(廣州)聯(lián)合清華大學(xué)、浙江大學(xué)、西湖大學(xué)、上海交通大學(xué)等多所頂尖高校與科研機構(gòu)共同打造了具身智能領(lǐng)域首個聚焦「機器人記憶能力」的系統(tǒng)性評測基準RoboMemArena,旨在填補長期以來機器人在長時程任務(wù)與歷史狀態(tài)記憶評估上的空白。

      該基準突破傳統(tǒng)機器人 Benchmark 僅關(guān)注短期感知與即時控制的局限,構(gòu)建了涵蓋物體轉(zhuǎn)移、目標遮擋、動作計數(shù)與順序執(zhí)行四大核心記憶場景的綜合評測體系,共包含 26 項長時程任務(wù)、151 個細粒度子任務(wù)以及 2600 條專家演示軌跡。同時配套復(fù)雜的真機測評和 leaderboard,支持外部單位手動上傳模型進行真機評測,為具身智能系統(tǒng)在長期規(guī)劃、世界狀態(tài)理解與動態(tài)決策方面提供了更接近真實世界的統(tǒng)一評測標準。



      • 論文標題:RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark
      • 論文地址:https://arxiv.org/abs/2605.10921
      • 項目地址:https://robomemarena.github.io/
      • 代碼地址:https://github.com/OpenHelix-Team/RoboMemArena
      • Leaderboard地址:https://robomemarena.github.io/leaderboard.html
      • 數(shù)據(jù)集地址:https://huggingface.co/datasets/RoboMemArenaBenchmark/RoboMemArena

      如果一個 benchmark 本身沒有把 memory 需求設(shè)計清楚,那么后面的模型比較其實很難公平:

      • 有些任務(wù)看起來很長,但其實當前觀察就足夠決策;
      • 有些 benchmark 有長程執(zhí)行,卻沒有為 memory formation 提供直接監(jiān)督;
      • 還有一些工作只停留在 simulation,沒有配套的真實機器人驗證。

      RoboMemArena 想補上的,正是這塊空缺。它不是簡單做更多任務(wù),而是試圖把「機器人到底什么時候必須依賴歷史信息」這件事,系統(tǒng)化地組織起來。



      RoboMemArena 的三個核心特點

      1. 它提供了構(gòu)建 robot memory 所必需的多模態(tài)標注

      這是我們最看重的一點。很多 memory benchmark 只能告訴你最終成功還是失敗,但如果模型真的要學(xué)會「記住過去」,它需要的往往不只是最終標簽。

      RoboMemArena 提供了更貼近 memory formation 的多模態(tài)監(jiān)督,包括:

      • subtask-level annotations:把長程軌跡拆成可執(zhí)行、可理解的子任務(wù);
      • native keyframe annotations:顯式標記那些真正重要的物理狀態(tài)轉(zhuǎn)折;
      • 與軌跡對應(yīng)的視覺觀測、動作和機器人狀態(tài)。

      也就是說,我們不僅告訴模型「這個任務(wù)要完成」,還盡量告訴它「歷史里哪些瞬間值得記住」。這也是 RoboMemArena 和很多已有 benchmark 非常不同的地方。



      2. 它在 memory benchmark 里足夠長程,也足夠 diverse

      RoboMemArena 一共包含26 個任務(wù),覆蓋四類典型的 memory-demand setting:

      • Transferring(物體轉(zhuǎn)移)
      • Occlusion(目標遮擋)
      • Counting(動作計數(shù))
      • Sequence(順序執(zhí)行)

      這些任務(wù)并不是為了「湊數(shù)量」,而是圍繞 reactive policy 的典型失敗模式來設(shè)計的。從統(tǒng)計上看,RoboMemArena 有幾個非常關(guān)鍵的數(shù)字:

      • 平均每個任務(wù)超過 1000 steps
      • 一共收集2600 條長程視覺軌跡
      • 進一步切分得到15100 個 keyframe-aligned 短段
      • 全部 151 個子任務(wù)里,68.9% 是 memory-dependent



      換句話說,這不是一個「順帶考一下記憶」的 benchmark,而是一個把歷史依賴明確放到臺面上的 benchmark。

      3. 它不只停留在 simulation,還配套了復(fù)雜真機測評

      這也是我們特別想補上的地方。

      如果一個 memory 方法只能在 simulation 里有效,那它距離真正的 embodied system 還是有一段距離。所以在 RoboMemArena 里,我們不僅做了仿真 benchmark,還配套設(shè)計了5 個真實機器人 memory 任務(wù)

      • Pour Bottle ×2(動作計數(shù)任務(wù))
      • Brush Plates with Swap(狀態(tài)不可見任務(wù))
      • Transfer Objects(順序執(zhí)行任務(wù))
      • Shell Game(隱藏狀態(tài)追蹤任務(wù))
      • IHMBImitate Human to Make Breakfast (IHMB)(長程模仿任務(wù))

      其中最長的真實任務(wù)超過 3 分鐘,而且在最復(fù)雜的IHMB(模仿人類做早餐) 任務(wù)上,只有我們的PrediMem能夠成功完成。

      這意味著 memory 機制帶來的提升,不只是 simulation 里的表面收益,而是在真實執(zhí)行噪聲下依然有價值。

      為什么我們說它 easy to use?

      我們不希望 RoboMemArena 只是一個「寫論文用的 benchmark」,也希望它能被后來者真正拿來訓(xùn)練、復(fù)現(xiàn)和比較。所以在開放資源上,我們盡量把入口做完整:

      • 開源26 個任務(wù)的高質(zhì)量訓(xùn)練數(shù)據(jù),并帶有子任務(wù)、關(guān)鍵幀、HDF5 軌跡結(jié)構(gòu)等豐富標注;
      • 提供26 個 BDDL 任務(wù)定義、LIBERO-compatible evaluation environment,以及與mujoco + robosuite + OpenGL/EGL兼容的評測路徑;
      • 開放PrediMem相關(guān)訓(xùn)練與評測實現(xiàn)入口,并已經(jīng)系統(tǒng)跑出π0.5、MemoryVLA、MemER、HiF-VLA等代表性 baseline。

      換句話說,如果你想直接在統(tǒng)一 benchmark 上做 robot memory 研究,RoboMemArena 已經(jīng)盡量把最費時間的那部分前置工作替大家做掉了。

      PrediMem 到底強在哪里?



      如果說 RoboMemArena 回答的是:memory benchmark 應(yīng)該怎么做。那么 PrediMem 回答的就是:在這樣一個 benchmark 上,一個真正有效的 memory-aware baseline 應(yīng)該長什么樣

      PrediMem 是一個dual-system VLA

      • 高層 VLM 負責(zé)規(guī)劃和 memory 管理
      • 低層 VLA 負責(zé)執(zhí)行動作 chunk

      它的關(guān)鍵不在于盲目加大模型,而在于讓高層 planner 顯式維護:

      • recent-frame buffer
      • keyframe buffer

      并且通過predictive coding head,讓高層表征對物理狀態(tài)轉(zhuǎn)折更敏感。這種設(shè)計看起來不算復(fù)雜,但在 long-horizon、partially observable 的場景里非常關(guān)鍵。

      實驗上,它把 memory 這件事真正拉開了差距



      在仿真實驗里,PrediMem 的整體結(jié)果優(yōu)于所有 baseline:

      • PrediMem:38.5% TSR / 55.2% CSR
      • MemER:27.3% TSR / 49.1% CSR
      • π0.5:21.5% TSR / 38.7% CSR

      如果再細看四類任務(wù),PrediMem 在Transferring、Occlusion、Counting、Sequence上都拿到了最好的平均結(jié)果,其中在最依賴歷史狀態(tài)保持的Sequence上達到72.5% TSR / 89.5% CSR,在OcclusionCounting這兩類 memory-demand 最強的設(shè)置里也明顯拉開了和 baseline 的差距。

      而在真實機器人任務(wù)上,結(jié)果同樣清楚:

      • PrediMem:52% average success
      • MemER:40%
      • π0.5

      更重要的是,在最長、最復(fù)雜、最依賴歷史信息的IHMB上,只有 PrediMem 成功。而且從消融實驗也能看到,無論去掉predictive coding head還是拿掉keyframe bank,整體表現(xiàn)都會明顯下降。

      這說明 PrediMem 的優(yōu)勢并不來自單純「模型更大」,而是確實來自對歷史信息組織方式的改進。這也說明 memory 不是一個「錦上添花」的小模塊,而是長程機器人執(zhí)行里決定任務(wù)能不能貫通的核心能力。

      我們真正希望 RoboMemArena 帶來什么?

      我們希望它不只是又一個 benchmark 名字,更希望它把一個長期被低估的問題真正抬出來:對于 long-horizon robotic execution,memory 不是可選項,而是基礎(chǔ)能力。

      如果一個系統(tǒng)不能記住:

      • 之前發(fā)生了什么
      • 哪些狀態(tài)變化值得保留
      • 人類剛剛示范過怎樣的順序

      那么它在真實復(fù)雜任務(wù)里就很難真正穩(wěn)定。

      RoboMemArena 想做的,就是把這件事用一個更完整、更可訓(xùn)練、更可比較、也更能落到真機上的方式組織起來。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      阿莫西林是消炎藥?醫(yī)生:不是!真正的消炎藥只有這4種,別認錯

      阿莫西林是消炎藥?醫(yī)生:不是!真正的消炎藥只有這4種,別認錯

      醫(yī)者榮耀
      2026-05-29 12:05:10
      從36跌到3.5,跌了整整8年,好不容易等到一個漲停,結(jié)果炸板了!

      從36跌到3.5,跌了整整8年,好不容易等到一個漲停,結(jié)果炸板了!

      丁丁鯉史紀
      2026-05-30 17:08:34
      破14億票房,《給阿嬤的情書》三連冠,六一檔4部動畫全被打懵了

      破14億票房,《給阿嬤的情書》三連冠,六一檔4部動畫全被打懵了

      電影票房預(yù)告片
      2026-06-01 18:35:49
      法網(wǎng)超新星誕生!去年世界排名僅第707,19歲小將首晉大滿貫8強

      法網(wǎng)超新星誕生!去年世界排名僅第707,19歲小將首晉大滿貫8強

      體育妞世界
      2026-06-01 07:53:47
      湯淼癱瘓19年,母親妻子另嫁,9歲女兒陪伴,生活有保障

      湯淼癱瘓19年,母親妻子另嫁,9歲女兒陪伴,生活有保障

      嘴角上翹的弧度
      2026-05-31 22:47:28
      男團成員褲腰低到離譜?網(wǎng)友怒批:這是公共猥褻

      男團成員褲腰低到離譜?網(wǎng)友怒批:這是公共猥褻

      時光慢旅人
      2026-05-30 01:29:08
      2950枚導(dǎo)彈無一命中,霹靂-2的慘痛代價誰人知

      2950枚導(dǎo)彈無一命中,霹靂-2的慘痛代價誰人知

      起喜電影
      2026-05-23 11:24:35
      美媒:中國曝光處于原型階段的新一代重型坦克,世界頂級裝甲防護

      美媒:中國曝光處于原型階段的新一代重型坦克,世界頂級裝甲防護

      零度Military
      2026-06-01 13:17:09
      馬云斥巨資在沙漠里種樹,承諾每年1億棵,10年過去了,情況如何

      馬云斥巨資在沙漠里種樹,承諾每年1億棵,10年過去了,情況如何

      混沌錄
      2026-05-30 11:26:16
      51歲貝克漢姆身價暴漲海島度假,52歲貝嫂又黑又老,14歲小七胖了

      51歲貝克漢姆身價暴漲海島度假,52歲貝嫂又黑又老,14歲小七胖了

      照見古今
      2026-05-31 21:02:40
      世界杯倒計時12天!金球獎候選人最新排名:登貝萊第2,姆巴佩第8

      世界杯倒計時12天!金球獎候選人最新排名:登貝萊第2,姆巴佩第8

      球場沒跑道
      2026-06-01 12:14:24
      如今黃金價格變成了一個天大的笑話,買黃金的人可笑到什么程度?

      如今黃金價格變成了一個天大的笑話,買黃金的人可笑到什么程度?

      觀史搜尋著
      2026-06-01 03:07:25
      前女友曬穿巴西球衣照,維尼修斯:請求大家不要冒犯她

      前女友曬穿巴西球衣照,維尼修斯:請求大家不要冒犯她

      懂球帝
      2026-06-01 15:58:18
      廣廈0-3不敵上海!隊內(nèi)內(nèi)訌曝光,揪出三大問題球員 重建迫在眉睫

      廣廈0-3不敵上海!隊內(nèi)內(nèi)訌曝光,揪出三大問題球員 重建迫在眉睫

      林子說事
      2026-06-01 10:31:15
      3種蔬菜已被列入“致癌名單”,吃多了會致癌?告訴你真相

      3種蔬菜已被列入“致癌名單”,吃多了會致癌?告訴你真相

      墜入二次元的海洋
      2026-06-01 17:44:55
      史上最和諧的皇室兄弟:哥哥將皇位讓給弟弟,弟弟追封哥哥為皇帝

      史上最和諧的皇室兄弟:哥哥將皇位讓給弟弟,弟弟追封哥哥為皇帝

      鶴羽說個事
      2026-05-30 23:07:30
      4-0!德國隊獲8連勝,2200萬鋒霸2射1傳后傷退,兩大億元先生破門

      4-0!德國隊獲8連勝,2200萬鋒霸2射1傳后傷退,兩大億元先生破門

      我愛英超
      2026-06-01 06:00:38
      任何人的離世,除了至親,對別人而言,只是一場不得不到場的聚會

      任何人的離世,除了至親,對別人而言,只是一場不得不到場的聚會

      小馬達情感故事
      2026-05-31 20:00:03
      張雪機車收獲兩個第8名,張雪發(fā)文反對車手德比斯攬責(zé):“知道短板了就改進,相信下一代賽車更強”

      張雪機車收獲兩個第8名,張雪發(fā)文反對車手德比斯攬責(zé):“知道短板了就改進,相信下一代賽車更強”

      都市快報橙柿互動
      2026-06-01 08:57:58
      夏天已至,醫(yī)生叮囑糖尿病患者:寧可吃西瓜,也別天天吃這3種物

      夏天已至,醫(yī)生叮囑糖尿病患者:寧可吃西瓜,也別天天吃這3種物

      垚垚分享健康
      2026-06-01 08:54:30
      2026-06-01 21:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13135文章數(shù) 142658關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設(shè)計!

      頭條要聞

      媒體:鄭麗文"兩手空空"訪美 被指有望見到特朗普

      頭條要聞

      媒體:鄭麗文"兩手空空"訪美 被指有望見到特朗普

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現(xiàn)場圖!一雙兒女當花童

      財經(jīng)要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創(chuàng)新高

      態(tài)度原創(chuàng)

      健康
      房產(chǎn)
      游戲
      本地
      軍事航空

      干細胞臨床研究向患者收費?別踩坑

      房產(chǎn)要聞

      100億!1371畝!海口城市更新,再爆超級項目!

      《巫師4》開發(fā)加速 團隊超500人 “舊時曲”DLC是鋪墊

      本地新聞

      用剪紙的方式,打開江蘇揚州

      軍事要聞

      韓國最大軍工企業(yè)爆炸 已造成5人死亡

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 永久久久精品人人做人人爽| 国产成人高清亚洲综合| 国产成人精品人妻熟女a62v久久| 国产亚洲AV综合人人澡精品| 国产美女直播亚洲一区色| 日本精品成人一区二区三区视频| 精品视频在线免费看| 中文字幕亚洲综合久久菠萝蜜| 国产成人精品亚洲资源| 内射网站| 中文字幕精品熟女人妻 | 中文字幕日韩有码av| 成人在线超碰| 国产成人久久久久中文字幕亚洲人妻| 亚洲一区成人av在线| 在线免费观看毛片av| 亚洲欧美中文日韩AⅤ| 午夜无遮挡男女啪啪免费软件| 亚洲色无码专区一区| 成人综合婷婷国产精品久久蜜臀| 亚洲福利精品一区二区三区| 18禁黄污吃奶免费看网站| 日韩精品亚洲精品485页| 精品女同一区二区三区在线| 中文字幕波多野不卡一区| 久久伊人狼人| 三级黄色网| 久久一区二区中文字幕| 久久福利导航| 香蕉视频欧美一卡二卡| 成本人妻片无码中文字幕免费| 无码日韩做暖暖大全免费不卡| 999成人网站| 亚洲国产成人一区二区| 国自产拍欧美久久一本到88色鬼首页| 怡红院一区二区三区在线| 成人国产综合| 日本女V片| 国产精品亲子乱子伦XXXX裸| 亚洲成人动漫在线| 在线国产精品中文字幕|