<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      李飛飛再出手,空間智能的ImageNet來了

      0
      分享至

      ImageNet之后,李飛飛再出手!

      李飛飛團隊最新發布ESI-Bench——一個專門用來評測具身空間智能的新基準。



      過去的空間智能評測默認給模型最優觀測,而ESI-Bench第一個把觀察者變成行動者,閉合了感知-行動回路。

      它為具身空間智能領域提供了一個系統性的評測框架,覆蓋人類核心空間認知能力的四大維度。

      論文的核心結論是:現在的AI看圖很厲害,但離「會動、會摸、會主動找答案」的空間智能還差得遠



      ESI-Bench是什么

      ESI-Bench發布的背景,是由于目前的空間智能benchmark,測的都是「被動感知」。

      把一張或幾張圖片扔給模型,問「A物體在B物體的左邊還是右邊」「這個杯子能裝多少水」「抽屜里有沒有東西」,這樣的題目測出來的是模型的視力,而非空間推理能力。

      反觀人類是怎么做的?人類會站起來繞到物體背后去看,會把抽屜拉開,會把水倒出來量一量。

      這就是ESI-Bench的核心立場:把觀察者變成行動者



      現實世界里,智能體必須像人類一樣,主動決定行動、獲取證據,再基于新觀測做下一步判斷。團隊把它稱為「感知-行動回路」(Perception-Action Loop)。

      ESI-Bench就是這樣一套超越現有基準的空間智能新評測基準,它包含10個任務類別,29個子類別,3081個任務實例,全部在OmniGibson仿真平臺上構建,場景素材來自BEHAVIOR-1K場景庫。



      所有任務圍繞Spelke的四大核心知識系統設計,也就是人類嬰兒天生就具備的空間直覺:物體表征、布局與幾何、數量表征、目標導向行動。

      它的關鍵設定在于行動強制。每一道題,AI智能體必須主動行動才能拿到足夠信息作答。模型不能坐在原地等圖片,它要決定往哪走、看什么、拿什么、怎么操作。



      舉幾個具體的例子:

      比如評測中有一道「剛性容納」題:給定幾個容器和幾個物體,要求把物體全部裝進去。有的容器開口小、有的內部有隔板、有的蓋子需要掀開才能看到真實容量。

      模型必須走近、俯身、甚至把容器拿起來從底部觀察,才能判斷能不能裝得下。



      還有「液體體積」題:兩個杯子,從外觀看不出容量差異,模型需要把水倒進去測試,或者直接拿起來掂量。

      這么一說,大家應該也能直觀感受到這套評測基準的設計理念:

      正確答案不在任何單張圖片里,智能體必須主動行動并推理出正確結果

      團隊特別指出,與此前工作相比,ESI-Bench在三個地方有所超越:





      從空間感知到空間能力:在這里,智能體不僅根據他們能感知到什么來評估,還根據他們是否知道部署哪些具體能力來解決空間任務來評估;

      選擇性感知:智能體必須確定哪些觀察值得獲取,優先考慮與任務相關的信息而不是冗余或無信息的輸入;

      解決感知歧義:智能體必須通過誤導性觀察進行推理,以推斷隱藏的空間結構和超越直接觀察的潛在物理約束。

      測完發現了啥?3個核心結論

      團隊拿當前最強的多模態大模型做了全面測試,包括GPT-5和Gemini系列。



      這是最主要的實驗結果圖,包含了ESI-Bench在被動感知、主動探索、Oracle三種范式下的各項任務準確率,涵蓋2D+VLM、3D+LLM及人類基線。

      核心結論有3個。

      第一,感知不是瓶頸,行動才是

      好消息是,主動探索確實有效。在沒有額外指令的情況下,智能體自發涌現出多種空間策略。

      比如繞到物體背后觀察(move-behind)、切換俯視角度(top-down)、把物體拿起來(pick-up)、把水倒出來驗證(pour-out)。



      Gemini 3.1在「部分遮擋」任務上,如果給到最佳觀察視角,準確率從14.6%暴漲到95.1%。

      這說明,模型本身的感知能力是好的,只要給對視角,它就能看得懂。



      但問題在于,模型自己找不到那個對的視角。

      更糟糕的問題在于,被動多視角策略不僅沒用,反而有害。

      讓GPT-5多看幾張隨機角度的圖片,空間距離任務的準確率從53.9%降到49.1%。圖看得多了,分反而低了。

      GPT-5和Gemini 3.1在主動探索中達到正確答案所需的平均步數



      團隊把這個現象命名為「動作盲視」(Action Blindness),一個差動作導致一個差視角,差視角觸發更差動作,形成不可逆的級聯失敗。

      在結構圍合任務上,主動探索策略和上帝視角的差距高達49.7%。



      也就是說,空間智能的卡點不在于視覺模型不夠強,而是行動策略幾乎為零

      第二,3D重建不是萬能藥,不完美的3D比2D更坑。

      既然2D被動看圖不行,那上3D呢?這也是當前很多具身智能團隊的路子,先重建三維場景,再在場景圖上做推理。

      結果發現,如果給的是真值3D(上帝視角的完美幾何),那確實很強。

      Gemini在材質透明任務上,2D版本得分44.0%,3D版本得分60.4%,提升16.4個百分點。在需要精確深度信息的任務上,3D grounding有天然優勢。

      但如果是真實重建呢?團隊用當前最先進的VGGT模型做場景重建,再把重建結果喂給推理模型。

      結果那叫一個慘不忍睹:幾何配置任務上,2D基線得分27.5%,VGGT重建后的場景圖得分只有9.9%。



      這說明,不完美的3D不是中性失敗,它是負向失敗。幾何偽影、遮擋補全錯誤、深度估計偏差,把這些失真信息編碼成場景圖,就等于給推理模型喂了一份「有毒」的輸入。

      相比之下,2D雖然信息少,但至少不失真;3D如果重建質量不過關,比2D還不如。

      第三,元認知缺陷:模型不知道自己看沒看夠。

      論文里還有一組對比實驗,探討了智能體和人類的空間推理能力究竟還有多大差距。

      結果發現,盡管人類與模型之間存在感知差距,但該差距可能比普遍認為的要小。

      在部分類別中,模型的被動表現甚至能與人類持平或超越人類。

      在真實軌跡條件下,Gemini在部分遮擋任務上達到88.4%的準確率,而人類為87.4%;GPT-5在材質透明度任務上達到96.3%,人類則為97.2%。



      然而在主動探索場景下,二者的差距急劇顯現。

      人類憑借明確的觀察目標和停止時機,表現遠超模型,且主動探索的表現更接近真實軌跡下的被動表現。

      例如在物理接觸任務中,人類準確率為88.3%,而 GPT-5僅為 64.2%;在材質透明度任務中,人類準確率為93.6%,Gemini 3.1則為52.3%。

      通過分析模型與人類的探索軌跡,團隊發現人類表現出更強的認知謹慎性:在做出判斷前會收集更多觀測,主動尋找可能證偽當前假設的視角,并在模糊情境下降低置信度。

      而模型則會過早停止探索,即便證據存在模糊性,也僅在少數步驟后就以高置信度做出判斷,進而產生與場景狀態相悖的空間幻覺。



      模型的過度自信,還因動作選擇的方向偏差而加?。耗P筒粫讲檎唤嵌然驅ふ夷芡品跏加∠蟮囊暯?,而是反復向同一方向移動,積累的是冗余信息而非有效觀測。

      團隊把它定性為元認知(metacognition)缺陷:模型不知道自己不知道。

      它缺乏一種內建的「懷疑機制」,無法評估當前信息是否充分,無法根據矛盾證據調整信念。

      這個問題從根本上區別于感知能力,也是一個更加底層的挑戰,僅靠更強的視覺編碼器或更多的探索步驟無法解決。

      論文作者

      最后,再介紹一下這項工作的作者團隊。



      一作是Yining Hong

      Yining Hong,斯坦福大學的博士后,導師為Yejin Choi教授,同時受到Leonidas Guibas教授、吳家俊教授和李飛飛教授的密切指導。



      她曾在UCLA獲得計算機科學博士學位,本科就讀于上海交通大學電子工程系。

      此外,她還是一名職業音樂家,平時會和樂隊一起巡演,同時也是CVPR 2026的社交主席,負責組織CVPR招待會和音樂表演。

      Jiageng Liu(劉家耕),加州大學洛杉磯分校(UCLA)Mobility Lab的博士生。



      其本科就讀于浙江大學竺可楨榮譽學院及計算機科學與技術學院的圖靈班,獲人工智能學士學位。

      Han Yin,清華大學本科生,斯坦福大學Intern,專業為計算機科學與技術。



      李飛飛、吳佳?。↗iajun Wu)、Yejin Choi,三位斯坦福教授,也同時出現在作者列表里。





      另外還有來自西北大學的Manling Li教授和斯坦福的Leonidas Guibas教授參與。


      [1]https://arxiv.org/abs/2605.18746
      [2]https://esi-bench.github.io/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      震驚!河南麥收“割分按畝”,網友調侃:不地道啊,壞了江湖規矩

      震驚!河南麥收“割分按畝”,網友調侃:不地道啊,壞了江湖規矩

      火山詩話
      2026-06-01 06:43:31
      直到薛桂生成封導接班人,才知封導為何一夜白頭,退出劇團工作

      直到薛桂生成封導接班人,才知封導為何一夜白頭,退出劇團工作

      容妃
      2026-06-01 13:34:28
      ES9和M9大定數據來了,火星撞地球了!

      ES9和M9大定數據來了,火星撞地球了!

      路極
      2026-06-01 14:05:09
      7萬人為內馬爾歡呼!巴西隊6-2打爆世界第33:劍指第6冠 安帥豪賭

      7萬人為內馬爾歡呼!巴西隊6-2打爆世界第33:劍指第6冠 安帥豪賭

      風過鄉
      2026-06-01 08:21:10
      中方驅逐《紐約時報》一記者出境,外交部回應

      中方驅逐《紐約時報》一記者出境,外交部回應

      澎湃新聞
      2026-06-01 16:40:10
      人口告別世界第一?催生“二孩”無效后,國家終于向住房出手了!

      人口告別世界第一?催生“二孩”無效后,國家終于向住房出手了!

      混沌錄
      2026-05-30 23:41:14
      魔術師發話!誰來防守文班?

      魔術師發話!誰來防守文班?

      柚子說球
      2026-06-01 23:12:48
      俞浩的蓋頭馬上要被揭開了

      俞浩的蓋頭馬上要被揭開了

      未來之地
      2026-06-01 21:54:32
      為了鄭麗文專機能順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

      為了鄭麗文專機能順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

      無意爭春
      2026-04-08 07:09:03
      臺灣42歲老師性侵6年級小學生,4個月9次 生下一孩,判17年仍不服

      臺灣42歲老師性侵6年級小學生,4個月9次 生下一孩,判17年仍不服

      墨策史
      2026-06-01 01:30:05
      小麥:弗爵9月主動給我打電話,詢問我的近況;羅馬諾:瓊阿梅尼是曼聯的夢幻引援目標,但難度很大

      小麥:弗爵9月主動給我打電話,詢問我的近況;羅馬諾:瓊阿梅尼是曼聯的夢幻引援目標,但難度很大

      MUREDS
      2026-06-01 22:56:01
      太解氣了!印度高溫破紀錄電網崩潰,昔日封殺中國貨今日求援被拒

      太解氣了!印度高溫破紀錄電網崩潰,昔日封殺中國貨今日求援被拒

      匹夫來搞笑
      2026-06-01 17:21:40
      不再圍著合肥轉!安徽高鐵迎來大變局,皖北樞紐正式崛起

      不再圍著合肥轉!安徽高鐵迎來大變局,皖北樞紐正式崛起

      小虎新車推薦員
      2026-06-01 14:08:55
      教育部明確:高考命題突出反套路導向 莫信AI或“專家”押題

      教育部明確:高考命題突出反套路導向 莫信AI或“專家”押題

      閃電新聞
      2026-06-01 12:01:20
      正式確定!CBA本土得分王離開球隊,告別老東家

      正式確定!CBA本土得分王離開球隊,告別老東家

      體壇瞎白話
      2026-06-01 17:42:00
      她是蝎子,我是自愿背她的青蛙

      她是蝎子,我是自愿背她的青蛙

      山野有晚風
      2026-05-31 01:50:45
      人氣花被大佬甩了?劉亦菲不記得同學?侯明昊給虞書欣做配?鄧為有靠山了?姨太問答

      人氣花被大佬甩了?劉亦菲不記得同學?侯明昊給虞書欣做配?鄧為有靠山了?姨太問答

      毒舌扒姨太
      2026-06-01 22:39:10
      烏推無人機軍功積分換裝備引爭議,俄研發反制無人機新武器

      烏推無人機軍功積分換裝備引爭議,俄研發反制無人機新武器

      紅星新聞
      2026-06-01 18:58:13
      菲律賓總統大選最新民調出爐,前總統杜特爾特之女、現副總統莎拉仍領先,但她正面臨彈劾審判

      菲律賓總統大選最新民調出爐,前總統杜特爾特之女、現副總統莎拉仍領先,但她正面臨彈劾審判

      新浪財經
      2026-05-31 15:55:18
      日本正式加入北約援烏PURL計劃,俄羅斯被聯大納入沖突暴力黑名單

      日本正式加入北約援烏PURL計劃,俄羅斯被聯大納入沖突暴力黑名單

      史政先鋒
      2026-05-30 20:55:28
      2026-06-02 00:20:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12723文章數 176476關注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設計!

      頭條要聞

      河南13人死亡車禍背后:有司機開不動了讓乘客代開車

      頭條要聞

      河南13人死亡車禍背后:有司機開不動了讓乘客代開車

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現場圖!一雙兒女當花童

      財經要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

      態度原創

      教育
      旅游
      數碼
      本地
      公開課

      教育要聞

      目前學校形式主義最嚴重的幾個方面,幾乎所有學校都存在!

      旅游要聞

      逛故宮的游客注意了,坤寧宮明起檢修請繞行

      數碼要聞

      為星閃音頻鋪路:華為nova 16系列手機全系支持星閃E2.0功能

      本地新聞

      用剪紙的方式,打開江蘇揚州

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 超碰狠狠干| 国产欧美精品aaaaaa片| 免费av网站| 崇义县| 国产熟女网| 亚洲av综合色一区二区| 9.1原创大神| 图片一区二区三区| 色网av免费在线观看| 日日摸夜夜添夜夜添国产精品 | 84pao强力打造永久免费高速高清| 亚洲日韩精品一区二区三区无码| 国产拳头交一区二区| 亚洲国产另类久久久精品黑人| 无码粉嫩虎白一线天在线观看| 色综合久久天天综线观看| 国产偷窥熟女高潮精品视频| 国产精品美女久久久久av福利| 欧美日韩国产在线人成dvd| 成人免费无遮挡无码黄漫视频| 国产精品大片中文字幕| 中国免费看的片| 日本精品中文字幕在线不卡| 综合亚洲另类欧美久久成人精品| 欧美成人黄在线观看| 国产亚洲av综合三区| a级成人毛片| 亚洲精品国产福利片| av一区二区中文字幕| 人人妻人人狠人人爽天天综合网| 亚洲av综合色区无码专区| 久久巨| 日韩不卡一区二区在线观看| 综合色色网| 国产第二区| 久久久久亚洲AV成人网人人网站| 久9视频这里只有精品| 中文字幕乱码一区二区| 大香蕉综合网| 韩国美女av一区二区三区四区| 女人下边被添全过视频的网址 |