<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<td id="j185t"><center id="j185t"><tbody id="j185t"></tbody></center></td>

<ul id="j185t"><rp id="j185t"></rp></ul>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

李飛飛再出手，空間智能的ImageNet來了

2026-05-22 16:22:31　來源: 量子位

北京舉報

0

分享至

ImageNet之后，李飛飛再出手！

李飛飛團隊最新發布ESI-Bench——一個專門用來評測具身空間智能的新基準。

過去的空間智能評測默認給模型最優觀測，而ESI-Bench第一個把觀察者變成行動者，閉合了感知-行動回路。

它為具身空間智能領域提供了一個系統性的評測框架，覆蓋人類核心空間認知能力的四大維度。

論文的核心結論是：現在的AI看圖很厲害，但離「會動、會摸、會主動找答案」的空間智能還差得遠

ESI-Bench是什么

ESI-Bench發布的背景，是由于目前的空間智能benchmark，測的都是「被動感知」。

把一張或幾張圖片扔給模型，問「A物體在B物體的左邊還是右邊」「這個杯子能裝多少水」「抽屜里有沒有東西」，這樣的題目測出來的是模型的視力，而非空間推理能力。

反觀人類是怎么做的？人類會站起來繞到物體背后去看，會把抽屜拉開，會把水倒出來量一量。

這就是ESI-Bench的核心立場：把觀察者變成行動者

現實世界里，智能體必須像人類一樣，主動決定行動、獲取證據，再基于新觀測做下一步判斷。團隊把它稱為「感知-行動回路」（Perception-Action Loop）。

ESI-Bench就是這樣一套超越現有基準的空間智能新評測基準，它包含10個任務類別，29個子類別，3081個任務實例，全部在OmniGibson仿真平臺上構建，場景素材來自BEHAVIOR-1K場景庫。

所有任務圍繞Spelke的四大核心知識系統設計，也就是人類嬰兒天生就具備的空間直覺：物體表征、布局與幾何、數量表征、目標導向行動。

它的關鍵設定在于行動強制。每一道題，AI智能體必須主動行動才能拿到足夠信息作答。模型不能坐在原地等圖片，它要決定往哪走、看什么、拿什么、怎么操作。

舉幾個具體的例子：

比如評測中有一道「剛性容納」題：給定幾個容器和幾個物體，要求把物體全部裝進去。有的容器開口小、有的內部有隔板、有的蓋子需要掀開才能看到真實容量。

模型必須走近、俯身、甚至把容器拿起來從底部觀察，才能判斷能不能裝得下。

還有「液體體積」題：兩個杯子，從外觀看不出容量差異，模型需要把水倒進去測試，或者直接拿起來掂量。

這么一說，大家應該也能直觀感受到這套評測基準的設計理念：

正確答案不在任何單張圖片里，智能體必須主動行動并推理出正確結果

團隊特別指出，與此前工作相比，ESI-Bench在三個地方有所超越：

從空間感知到空間能力：在這里，智能體不僅根據他們能感知到什么來評估，還根據他們是否知道部署哪些具體能力來解決空間任務來評估；

選擇性感知：智能體必須確定哪些觀察值得獲取，優先考慮與任務相關的信息而不是冗余或無信息的輸入；

解決感知歧義：智能體必須通過誤導性觀察進行推理，以推斷隱藏的空間結構和超越直接觀察的潛在物理約束。

測完發現了啥？3個核心結論

團隊拿當前最強的多模態大模型做了全面測試，包括GPT-5和Gemini系列。

這是最主要的實驗結果圖，包含了ESI-Bench在被動感知、主動探索、Oracle三種范式下的各項任務準確率，涵蓋2D+VLM、3D+LLM及人類基線。

核心結論有3個。

第一，感知不是瓶頸，行動才是

好消息是，主動探索確實有效。在沒有額外指令的情況下，智能體自發涌現出多種空間策略。

比如繞到物體背后觀察（move-behind）、切換俯視角度（top-down）、把物體拿起來（pick-up）、把水倒出來驗證（pour-out）。

Gemini 3.1在「部分遮擋」任務上，如果給到最佳觀察視角，準確率從14.6%暴漲到95.1%。

這說明，模型本身的感知能力是好的，只要給對視角，它就能看得懂。

但問題在于，模型自己找不到那個對的視角。

更糟糕的問題在于，被動多視角策略不僅沒用，反而有害。

讓GPT-5多看幾張隨機角度的圖片，空間距離任務的準確率從53.9%降到49.1%。圖看得多了，分反而低了。

GPT-5和Gemini 3.1在主動探索中達到正確答案所需的平均步數

團隊把這個現象命名為「動作盲視」（Action Blindness），一個差動作導致一個差視角，差視角觸發更差動作，形成不可逆的級聯失敗。

在結構圍合任務上，主動探索策略和上帝視角的差距高達49.7%。

也就是說，空間智能的卡點不在于視覺模型不夠強，而是行動策略幾乎為零

第二，3D重建不是萬能藥，不完美的3D比2D更坑。

既然2D被動看圖不行，那上3D呢？這也是當前很多具身智能團隊的路子，先重建三維場景，再在場景圖上做推理。

結果發現，如果給的是真值3D（上帝視角的完美幾何），那確實很強。

Gemini在材質透明任務上，2D版本得分44.0%，3D版本得分60.4%，提升16.4個百分點。在需要精確深度信息的任務上，3D grounding有天然優勢。

但如果是真實重建呢？團隊用當前最先進的VGGT模型做場景重建，再把重建結果喂給推理模型。

結果那叫一個慘不忍睹：幾何配置任務上，2D基線得分27.5%，VGGT重建后的場景圖得分只有9.9%。

這說明，不完美的3D不是中性失敗，它是負向失敗。幾何偽影、遮擋補全錯誤、深度估計偏差，把這些失真信息編碼成場景圖，就等于給推理模型喂了一份「有毒」的輸入。

相比之下，2D雖然信息少，但至少不失真；3D如果重建質量不過關，比2D還不如。

第三，元認知缺陷：模型不知道自己看沒看夠。

論文里還有一組對比實驗，探討了智能體和人類的空間推理能力究竟還有多大差距。

結果發現，盡管人類與模型之間存在感知差距，但該差距可能比普遍認為的要小。

在部分類別中，模型的被動表現甚至能與人類持平或超越人類。

在真實軌跡條件下，Gemini在部分遮擋任務上達到88.4%的準確率，而人類為87.4%；GPT-5在材質透明度任務上達到96.3%，人類則為97.2%。

然而在主動探索場景下，二者的差距急劇顯現。

人類憑借明確的觀察目標和停止時機，表現遠超模型，且主動探索的表現更接近真實軌跡下的被動表現。

例如在物理接觸任務中，人類準確率為88.3%，而 GPT-5僅為 64.2%；在材質透明度任務中，人類準確率為93.6%，Gemini 3.1則為52.3%。

通過分析模型與人類的探索軌跡，團隊發現人類表現出更強的認知謹慎性：在做出判斷前會收集更多觀測，主動尋找可能證偽當前假設的視角，并在模糊情境下降低置信度。

而模型則會過早停止探索，即便證據存在模糊性，也僅在少數步驟后就以高置信度做出判斷，進而產生與場景狀態相悖的空間幻覺。

模型的過度自信，還因動作選擇的方向偏差而加?。耗Ｐ筒粫讲檎唤嵌然驅ふ夷芡品跏加∠蟮囊暯?，而是反復向同一方向移動，積累的是冗余信息而非有效觀測。

團隊把它定性為元認知（metacognition）缺陷：模型不知道自己不知道。

它缺乏一種內建的「懷疑機制」，無法評估當前信息是否充分，無法根據矛盾證據調整信念。

這個問題從根本上區別于感知能力，也是一個更加底層的挑戰，僅靠更強的視覺編碼器或更多的探索步驟無法解決。

論文作者

最后，再介紹一下這項工作的作者團隊。

一作是Yining Hong

Yining Hong，斯坦福大學的博士后，導師為Yejin Choi教授，同時受到Leonidas Guibas教授、吳家俊教授和李飛飛教授的密切指導。

她曾在UCLA獲得計算機科學博士學位，本科就讀于上海交通大學電子工程系。

此外，她還是一名職業音樂家，平時會和樂隊一起巡演，同時也是CVPR 2026的社交主席，負責組織CVPR招待會和音樂表演。

Jiageng Liu（劉家耕），加州大學洛杉磯分校（UCLA）Mobility Lab的博士生。

其本科就讀于浙江大學竺可楨榮譽學院及計算機科學與技術學院的圖靈班，獲人工智能學士學位。

Han Yin，清華大學本科生，斯坦福大學Intern，專業為計算機科學與技術。

李飛飛、吳佳?。↗iajun Wu）、Yejin Choi，三位斯坦福教授，也同時出現在作者列表里。

另外還有來自西北大學的Manling Li教授和斯坦福的Leonidas Guibas教授參與。

[1]https://arxiv.org/abs/2605.18746
[2]https://esi-bench.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

李飛飛造了ImageNet，現在她又帶人超越了它

機器之心Pro 2026-06-01 11:00:43
13 跟貼 13
李飛飛李曼玲團隊發布空間理論：AI的空間智能還在三歲小孩階段

DeepTech深科技 2026-03-31 15:06:46
0 跟貼 0

李飛飛、Jeff Dean押注！不卷大模型，專練越用越聰明的AI

新智元 2026-06-01 09:07:07
9 跟貼 9

杭州是怎么硬起來的？

虎嗅APP 2026-06-01 18:32:05
2 跟貼 2
00后兄弟輟學創業，盯上Sora弱點，3個月融資2900萬

智東西 2026-01-04 18:09:55
1 跟貼 1

李飛飛做AI游戲拿了4個億，像刷抖音一樣玩游戲

量子位 2026-05-09 18:53:55
0 跟貼 0

有獎調研｜僅需2分鐘！參與EDC需求調研，領醫咖會基礎會員

醫咖會 2026-06-01 18:41:36
0 跟貼 0
一種新方法可能改寫鋰的開采方式：不用高溫焙燒、不用危險化學品

DeepTech深科技 2026-06-01 15:19:16
1 跟貼 1

這不是煙囪！三維拆解發電廠冷卻塔工作原理

宇宙科學探索 2026-05-29 15:40:45
30 跟貼 30
中國代表"香會"向菲律賓防長提問菲防長現場大放厥詞

北京日報 2026-05-31 21:15:10
1824 跟貼 1824
迪迪蝦來了！比亞迪全車智能體正式落地

唐長老KAI 2026-05-31 04:49:45
11 跟貼 11
世界模型第一次有了「存檔」！VAST發布Project Eden

機器之心Pro 2026-06-01 17:32:17
0 跟貼 0
超市卸豬肉時遭狗多次啃食，員工卻視而不見，店長：氣炸了

星視頻 2026-06-01 10:19:01
92 跟貼 92
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1852 跟貼 1852
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
外星高級文明只剩神經組織實現永生，所有工作都靠人工智能

黑皮觀影 2026-05-31 19:07:41
1 跟貼 1
安蒙COMPUTEX演講背后：高通正在構筑智能體時代的“計算連續體”

雷科技 2026-06-01 22:07:49
0 跟貼 0
AI硬件大爆發！高通梭哈「計算連續體」消滅計算邊界？

雷科技 2026-06-01 19:14:37
0 跟貼 0
貴州大學致歉

澎湃新聞 2026-06-01 12:58:38
765 跟貼 765
智能體從「單兵作戰」到「精銳團隊」 -1

機器之心Pro 2026-04-28 16:55:35
0 跟貼 0
美國人形機器人已參戰？計劃2027年前量產五萬臺，要打造終結者？

愛吃醋的貓咪 2026-06-01 21:46:20
0 跟貼 0
用上帝視覺看賈似道，就可以理解了

小叮當剪輯 2026-05-30 08:40:14
0 跟貼 0
近2億美元！VAST完成新一輪融資，正式披露世界模型路線

量子位 2026-06-01 17:47:42
0 跟貼 0
宇樹科技73天高效過會，具身智能迎里程碑時刻，哪些公司將受益？

每日經濟新聞 2026-06-01 23:02:09
0 跟貼 0
張鎮麟太香了！

新民晚報 2026-06-01 09:08:06
265 跟貼 265
23歲業余愛好者靠ChatGPT破解60年數學難題

量子位 2026-04-30 10:33:26
0 跟貼 0
人工智能，強調的就是人工！

小小折紙手工 2026-05-31 01:25:48
7 跟貼 7
樂道純視覺三季度大迭代，貴1萬的激光雷達版值不值？

字節漫游指南 2026-06-01 22:02:27
0 跟貼 0
車輛“發福”，車位需擴容？

海外網 2026-06-01 06:43:14
784 跟貼 784
世界上最快的模型車超過300公里的時速

淺夢看世界 2026-05-30 00:16:47
3 跟貼 3
AI實時渲染的無限流可視化瀏覽器Flipbook

量子位 2026-05-02 18:24:35
0 跟貼 0
技術實力鑄就底氣，比亞迪雙兜底保障，領跑智能駕駛

Geek新動力 2026-06-01 22:10:55
1 跟貼 1
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
夜空中最亮的星

國際在線 2026-05-29 08:57:49
1522 跟貼 1522
當AI從租GPU走向賣Token，誰會賺到真正的錢？

虎嗅APP 2026-05-19 00:08:10
17 跟貼 17
為了逃避考試，他發明了最好的壓縮算法，zip的歷史可謂一波三折

量子位 2026-04-29 06:41:21
0 跟貼 0
原定4944萬元今日開拍，恒大原總裁夏海鈞名下廣州豪宅突遭撤拍！平臺回應：原因未知

每日經濟新聞 2026-06-01 19:29:16
89 跟貼 89
SpaceX星艦模型真的戳中我了！4斤重的304不銹鋼材質，全鏡面工藝摸起來超有質感，擺在那兒就顯得

制造科技 2026-05-28 18:27:19
27 跟貼 27
95后博士休學創業押注AI空間游戲，未上線先出圈吸粉百萬

DeepTech深科技 2025-12-24 21:29:55
0 跟貼 0
獨家丨百人數字世界同臺舞?。∵@家中國企業創造世界新紀錄

機器人大講堂 2026-06-01 19:54:34
0 跟貼 0

震驚！河南麥收“割分按畝”，網友調侃：不地道啊，壞了江湖規矩

震驚！河南麥收“割分按畝”，網友調侃：不地道啊，壞了江湖規矩

火山詩話

2026-06-01 06:43:31

直到薛桂生成封導接班人，才知封導為何一夜白頭，退出劇團工作

直到薛桂生成封導接班人，才知封導為何一夜白頭，退出劇團工作

容妃

2026-06-01 13:34:28

ES9和M9大定數據來了，火星撞地球了！

ES9和M9大定數據來了，火星撞地球了！

路極

2026-06-01 14:05:09

7萬人為內馬爾歡呼！巴西隊6-2打爆世界第33：劍指第6冠安帥豪賭

7萬人為內馬爾歡呼！巴西隊6-2打爆世界第33：劍指第6冠安帥豪賭

風過鄉

2026-06-01 08:21:10

中方驅逐《紐約時報》一記者出境，外交部回應

中方驅逐《紐約時報》一記者出境，外交部回應

澎湃新聞

2026-06-01 16:40:10

人口告別世界第一？催生“二孩”無效后，國家終于向住房出手了！

人口告別世界第一？催生“二孩”無效后，國家終于向住房出手了！

混沌錄

2026-05-30 23:41:14

魔術師發話！誰來防守文班？

柚子說球

2026-06-01 23:12:48

俞浩的蓋頭馬上要被揭開了

未來之地

2026-06-01 21:54:32

為了鄭麗文專機能順利落地，解放軍果斷亮出底牌，痛擊臺獨要害

為了鄭麗文專機能順利落地，解放軍果斷亮出底牌，痛擊臺獨要害

無意爭春

2026-04-08 07:09:03

臺灣42歲老師性侵6年級小學生，4個月9次生下一孩，判17年仍不服

臺灣42歲老師性侵6年級小學生，4個月9次生下一孩，判17年仍不服

墨策史

2026-06-01 01:30:05

小麥：弗爵9月主動給我打電話，詢問我的近況；羅馬諾：瓊阿梅尼是曼聯的夢幻引援目標，但難度很大

小麥：弗爵9月主動給我打電話，詢問我的近況；羅馬諾：瓊阿梅尼是曼聯的夢幻引援目標，但難度很大

MUREDS

2026-06-01 22:56:01

太解氣了！印度高溫破紀錄電網崩潰，昔日封殺中國貨今日求援被拒

太解氣了！印度高溫破紀錄電網崩潰，昔日封殺中國貨今日求援被拒

匹夫來搞笑

2026-06-01 17:21:40

不再圍著合肥轉！安徽高鐵迎來大變局，皖北樞紐正式崛起

不再圍著合肥轉！安徽高鐵迎來大變局，皖北樞紐正式崛起

小虎新車推薦員

2026-06-01 14:08:55

教育部明確：高考命題突出反套路導向莫信AI或“專家”押題

教育部明確：高考命題突出反套路導向莫信AI或“專家”押題

閃電新聞

2026-06-01 12:01:20

正式確定！CBA本土得分王離開球隊，告別老東家

正式確定！CBA本土得分王離開球隊，告別老東家

體壇瞎白話

2026-06-01 17:42:00

她是蝎子，我是自愿背她的青蛙

山野有晚風

2026-05-31 01:50:45

人氣花被大佬甩了？劉亦菲不記得同學？侯明昊給虞書欣做配？鄧為有靠山了？姨太問答

人氣花被大佬甩了？劉亦菲不記得同學？侯明昊給虞書欣做配？鄧為有靠山了？姨太問答

毒舌扒姨太

2026-06-01 22:39:10

烏推無人機軍功積分換裝備引爭議，俄研發反制無人機新武器

烏推無人機軍功積分換裝備引爭議，俄研發反制無人機新武器

紅星新聞

2026-06-01 18:58:13

菲律賓總統大選最新民調出爐，前總統杜特爾特之女、現副總統莎拉仍領先，但她正面臨彈劾審判

菲律賓總統大選最新民調出爐，前總統杜特爾特之女、現副總統莎拉仍領先，但她正面臨彈劾審判

新浪財經

2026-05-31 15:55:18

日本正式加入北約援烏PURL計劃，俄羅斯被聯大納入沖突暴力黑名單

日本正式加入北約援烏PURL計劃，俄羅斯被聯大納入沖突暴力黑名單

史政先鋒

2026-05-30 20:55:28

追蹤人工智能動態

12723文章數 176476關注度

往期回顧全部

科技要聞

黃仁勛演講實錄|40年來PC首次重設計！

頭條要聞

河南13人死亡車禍背后：有司機開不動了讓乘客代開車

頭條要聞

河南13人死亡車禍背后：有司機開不動了讓乘客代開車

體育要聞

杰威：如果我沒受傷，我們能擊敗馬刺

娛樂要聞

奚夢瑤婚禮現場圖！一雙兒女當花童

財經要聞

宇樹過會，杭州贏麻了

汽車要聞

奇瑞集團5月銷量24.8萬輛同比增長20.5% 出口18.2萬輛再創新高

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

旅游

數碼

本地

公開課

教育要聞

目前學校形式主義最嚴重的幾個方面，幾乎所有學校都存在！

旅游要聞

逛故宮的游客注意了，坤寧宮明起檢修請繞行

數碼要聞

為星閃音頻鋪路：華為nova 16系列手機全系支持星閃E2.0功能

本地新聞

用剪紙的方式，打開江蘇揚州

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：超碰狠狠干| 国产欧美精品aaaaaa片| 免费av网站| 崇义县| 国产熟女网| 亚洲av综合色一区二区| 9.1原创大神| 图片一区二区三区| 色网av免费在线观看| 日日摸夜夜添夜夜添国产精品 | 84pao强力打造永久免费高速高清| 亚洲日韩精品一区二区三区无码| 国产拳头交一区二区| 亚洲国产另类久久久精品黑人| 无码粉嫩虎白一线天在线观看| 色综合久久天天综线观看| 国产偷窥熟女高潮精品视频| 国产精品美女久久久久av福利| 欧美日韩国产在线人成dvd| 成人免费无遮挡无码黄漫视频| 国产精品大片中文字幕| 中国免费看的片| 日本精品中文字幕在线不卡| 综合亚洲另类欧美久久成人精品| 欧美成人黄在线观看| 国产亚洲av综合三区| a级成人毛片| 亚洲精品国产福利片| av一区二区中文字幕| 人人妻人人狠人人爽天天综合网| 亚洲av综合色区无码专区| 久久巨| 日韩不卡一区二区在线观看| 综合色色网| 国产第二区| 久久久久亚洲AV成人网人人网站| 久9视频这里只有精品| 中文字幕乱码一区二区| 大香蕉综合网| 韩国美女av一区二区三区四区| 女人下边被添全过视频的网址 |

<samp id="enkkh"><progress id="enkkh"></progress></samp>

<form id="enkkh"></form>

<menu id="enkkh"><source id="enkkh"></source></menu>

<form id="enkkh"></form>

<b id="enkkh"></b>