<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      入選ECCV2026!清華開源空間模型打敗Gemini:世界變化中持續學習

      0
      分享至

      允中 發自 凹非寺
      量子位 | 公眾號 QbitAI

      在機器人、自動駕駛、AR等真實場景中,空間理解從來都不是“看一眼圖像”就能解決的問題。

      相機持續移動、視角不斷變化、目標時隱時現,空間信息從來不是明確且集中的,而是往往分散在長時間視頻流里,模型不僅要“看得見”,更要“記得住、連得起來、還能持續更新”

      這使得流式空間智能成為多模態大模型邁向真實世界應用的一道關鍵門檻。

      這篇文章的出發點是思考:多模態Agent如何在動態變化的世界中持續更新自己,而不是每次都像第一次看見世界。

      真實世界不是一張靜態圖片,也不是一段固定長度的視頻,而是一段持續展開的經驗流

      正如人理解空間,也不是一次性看完整個房間,而是在移動、觀察、遺忘、修正中,逐漸形成穩定的空間記憶。

      近日,由清華大學博士生劉芳甫擔任一作,聯合多位研究者共同完成的Spatial-TTT,被計算機視覺頂級會議ECCV 2026正式接收。



      ECCV與CVPR、ICCV通常并稱為計算機視覺三大頂級會議,每兩年舉辦一屆,用率常年偏低。

      對于一項工作而言,入選ECCV不只是多了一個會議標簽,也意味著它需要在研究問題、方法創新與實驗完整性上接受嚴格的同行評審。

      Spatial-TTT瞄準的,正是多模態模型從“看懂畫面”邁向“理解真實空間”過程中一個尚未解決的核心問題:

      當視頻不斷延長,模型能否不依賴無限膨脹的上下文,而是在觀看過程中,持續形成并更新自己的空間記憶?

      實驗中,僅有2B參數的Spatial-TTT,在論文測試的多個專項空間智能基準上超過GPT-5、Gemini-3-pro等閉源模型,并能夠處理最長120分鐘的流式視頻。

      它所給出的答案可以概括為一句話:

      讓模型不只是看視頻,而是在觀看過程中,邊看、邊更新、邊“長出”一份空間記憶

      能看長視頻,不等于能夠記住和理解空間

      空間智能的難點,從來不只是“把上下文做長”,而是空間信息該如何在時間維度上被選擇、組織、保留下來

      在真實場景中,模型面對的是一段持續涌入的視覺流:

      相機移動會改變視角,遮擋會打斷觀察,物體的顯隱又會讓關鍵證據散落在相距很遠的時刻。

      現有方法嘗試過引入深度信息、多視角輸入、空間專項微調數據,乃至訓練專用空間模型,但大多仍局限于單張圖像或短視頻片段,很難擴展到真實應用中動輒幾十分鐘、幾小時的長時程流式視頻。

      更進一步看,問題的核心并不只是模型"窗口不夠長",而是它缺少一種機制,能在推理過程中不斷把新觀察吸收進內部狀態,再把這些狀態組織成一份可供后續調用的空間記憶。

      傳統的靜態推理范式很難解決這一點,而TTT恰好提供了另一種可能:讓模型在推理時邊看邊更新參數,用參數本身的變化來承擔記憶功能。



      Spatial-TTT:把模型參數變成動態記憶

      為應對上述挑戰,研究團隊提出Spatial-TTT,將fast weights作為一種緊湊的非線性記憶,在處理視頻流的同時進行在線更新,不斷累積跨時間的3D空間證據。

      與把整段視頻一次性塞進上下文不同,Spatial-TTT更像是在持續“維護一份空間狀態”

      每當新的視頻chunk到來,模型就對已有的空間記憶做一次增量式刷新。



      TTT概念并不新,難的是讓它真正理解空間

      TTT此前已經被用于語言建模、新視角合成和視頻生成,但流式視覺空間理解有其特殊性:

      模型既要保留預訓練階段形成的視覺—語言能力,又要顯式利用視頻token的局部幾何與時間連續性,還需要足夠密集的監督,教會快速權重哪些空間信息值得長期保留。

      圍繞這三個問題,Spatial-TTT分別設計了混合架構、空間預測機制和密集場景描述監督

      設計一:混合式TTT架構,完美兼顧預訓練知識和長視頻處理

      直接把所有注意力層替換成TTT層,理論上效率更高,但會破壞原始多模態模型的跨模態對齊與語義能力,相當于在獲得長程記憶的同時,丟失了模型原本的語義理解能力。

      為此,研究團隊設計了混合式TTT架構

      • 在解碼器中按照3:1的比例交錯插入TTT層與標準self-attention anchor layers,其中75%的層采用TTT,負責將長程信息寫入快速權重;
      • 25%的層保留標準全注意力,作為錨定層,維持預訓練模型已有的語義理解和跨模態推理能力。

      也就是說,Spatial-TTT并非用TTT取代注意力,而是讓兩者各自承擔不同角色:TTT負責記得更久,全注意力負責理解得更準。

      與此同時,為提升大塊視覺token的處理效率,模型還引入了large-chunk更新,并搭配并行的sliding-window attention

      前者大幅提升GPU利用率,避免傳統TTT小塊頻繁更新導致的效率低下,以及強行切斷幀內空間結構的問題;

      后者則保證chunk內部仍具有完整的因果局部交互,避免空間連續性被更新邊界打斷。

      兩者分工明確:滑動窗口負責處理近期幀和局部結構,快速權重則負責跨塊保存更長期的信息。

      這一設計讓模型在長視頻場景下既具備線性復雜度帶來的可擴展性,又不會犧牲局部時空建模能力。

      設計二:Spatial-predictive mechanism,讓在線記憶真正“懂空間”

      僅僅把TTT搬到視頻中還不夠。

      研究團隊觀察到,傳統TTT中Q/K/V通常通過逐點線性投影生成,這意味著每個視覺token在進入快速權重之前,主要被當成一個孤立單元處理——

      這種方式忽略了視覺token之間天然存在的局部幾何結構和時間連續性,不利于空間狀態的穩定更新。

      但視覺空間信息天然存在于局部關系中,如果忽略這種局部連續性,快速權重就需要從零開始推斷幾何關系,記憶也更容易變得碎片化。

      為此,Spatial-TTT在TTT分支中引入了空間預測機制(spatial-predictive mechanism),對Q/K/V加入輕量級3D時空卷積。

      經過這一處理,fast weights學到的就不再是孤立token之間的映射,而是時空上下文到時空上下文的預測關系,從而能更好地捕捉幾何對應、視角變化與時間連續性,顯著增強在線更新的穩定性與有效性。

      設計三:稠密場景描述監督,模型從“會答題”走向“維護全局3D記憶”

      現有空間智能數據大多是稀疏、局部的Q&A監督,例如判斷兩個物體的相對關系,或者回答一個整數計數問題——

      這類短答案,只能覆蓋場景狀態中的極小部分,對fast weights學習長期有效的更新動態幫助有限。

      問題在于,快速權重需要學習的是如何持續維護整個場景,而不僅僅是提取某個局部答案。

      如果訓練中只問桌子和椅子的關系,模型就沒有動力記住房間里其他物體,也沒有動力形成完整的空間布局。

      因此,研究團隊構建了一份稠密的3D場景描述數據

      這份數據要求模型生成覆蓋場景全局語境、物體類別與數量、空間關系等內容的scene walkthrough,用更高覆蓋率的監督信號來訓練fast weights。

      該訓練采用兩階段spatial-aware progressive training方式:第一階段,模型先在密集場景描述上學習如何“記住整個空間”,形成全局3D意識;

      第二階段,再用數百萬條spatial VQA數據,進一步強化方向判斷、距離估計、計數、房間大小估計和路線規劃等流式空間推理能力。

      實驗結果:不僅更會“想空間”,也更能“撐長視頻”

      實驗結果顯示,Spatial-TTT在多個空間智能基準上都取得了非常強的表現。

      在VSI-Bench上,作為一個2B規模模型,Spatial-TTT-2B取得了64.4的平均分,超過多種閉源與開源基線;

      其中在Absolute Distance、Relative Direction、Route Plan、Appearance Order等任務上表現尤為突出,說明它在度量級空間估計、方向判斷與路徑規劃等任務上具備更強能力。



      在更考驗多視角細粒度空間推理的MindCube-Tiny上,Spatial-TTT拿下76.2%的準確率,比最強閉源基線Gemini-3-pro(63.9%)高出12個百分點,比代表性開源空間模型MindCube-3B(51.7%)高出近25個百分點。

      論文有效證明了Spatial-TTT在視角變化與遮擋條件下展現出更穩健的空間推理能力。



      在考驗“長期記憶”的VSI-SUPER系列任務上,Spatial-TTT的優勢進一步被放大。

      對于需要長時間累計證據的VSI-SUPER-Count,Spatial-TTT在10、30、60、120分鐘視頻上的得分,分別達到31.8、45.6、36.2、38.4;

      相比之下,一些通用多模態模型和空間模型在更長視頻上要么性能快速崩塌,要么直接OOM(內存/顯存耗盡)。

      而之所以能在更長時程下保持穩定,正是因為Spatial-TTT通過在線更新逐步整合新觀察,而不是被動依賴一次性長上下文處理。



      深度分析:Spatial-TTT的提升究竟來自哪里?

      消融實驗表明,Spatial-TTT的性能提升并不是單一技巧帶來的,而是三個設計協同發力的結果:

      • 去掉空間預測機制,VSI-Bench平均分從64.4降到62.1;
      • 去掉密集場景描述監督,降到61.3;
      • 如果完全去掉混合架構、只用純TTT結構,平均分直接掉到53.9。

      這說明架構設計、時空歸納偏置與監督信號之間存在顯著的協同效應。

      效率分析同樣值得關注。

      在1024幀輸入設置下,Spatial-TTT-2B的峰值顯存占用為11.9GB,理論計算量為799.4 TFLOPs;

      相比之下,行業領先的大廠模型分別為21.2GB和1403.1 TFLOPs——

      也就是說,Spatial-TTT在長上下文下實現了超過40%的顯存與計算節省。

      此外,帶顯式幾何編碼器的Spatial-MLLM-4B在512幀和1024幀場景下已無法運行。

      總結與展望:從“保存更多內容”,走向“形成持續的世界狀態”

      Spatial-TTT最值得關注的,不只是一個2B模型在多個空間智能基準上的領先成績,它還提供了一種重新理解長視頻記憶問題的方式。

      傳統長上下文方案試圖保留更多歷史內容,Spatial-TTT則進一步追問:

      模型能否將持續到來的視覺觀察,轉化為一份能夠不斷更新、修正和調用的內部空間狀態?

      它不需要永久保存每一幀畫面,卻需要知道自己經過了哪里、看到了什么,以及空間關系如何隨著新的觀察發生變化。

      這對于真正進入物理世界的Agent尤其重要。

      機器人不會只進入一次房間,自動駕駛系統不會只經過一次路口,AR設備也不會只觀察幾秒鐘的環境。

      它們需要在長期運行中積累空間經驗,讓此前的觀察真正影響之后的感知與決策,而不是在每一次任務開始時重新理解周圍世界。

      對于這些需要長期連續運行的Physical Agent系統而言,這項入選ECCV 2026的工作所提供的,或許不只是一個表現更強的空間智能模型,更是一條從流式視覺感知走向持續世界狀態建模的路徑。

      更關鍵的變化在于,過去的觀察開始參與下一次判斷與行動。

      當空間信息能夠被持續積累、修正和調用,Agent面對的就不再是一幀幀彼此割裂的畫面,而是一個具有連續性、能夠被理解并進一步作用于其中的世界。

      論文鏈接:https://arxiv.org/pdf/2603.12255
      項目主頁:https://liuff19.github.io/Spatial-TTT/
      GitHub:https://github.com/THU-SI/Spatial-TTT/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      14歲的哈珀心都碎了!單獨坐車去找大哥被拒,還連累父母被罵

      14歲的哈珀心都碎了!單獨坐車去找大哥被拒,還連累父母被罵

      書醬瞄瞄
      2026-06-14 22:45:41
      基恩:比利時與伊朗的比賽垃圾透頂

      基恩:比利時與伊朗的比賽垃圾透頂

      懂球帝
      2026-06-22 09:40:16
      全程不提日本!中國連簽三份聲明后,東京集體沉默,周邊國家醒悟

      全程不提日本!中國連簽三份聲明后,東京集體沉默,周邊國家醒悟

      星落山間
      2026-06-22 10:50:30
      梅根曬哈里王子父親節照片,7歲紅發阿奇穿球衣搶鏡,小女兒軟萌

      梅根曬哈里王子父親節照片,7歲紅發阿奇穿球衣搶鏡,小女兒軟萌

      可樂談情感
      2026-06-22 11:37:07
      某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

      某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

      番外行
      2026-02-26 19:53:05
      尼克斯打破魔咒!半個世紀沒奪冠?國王75年,老鷹68年,太陽58年

      尼克斯打破魔咒!半個世紀沒奪冠?國王75年,老鷹68年,太陽58年

      無術不學
      2026-06-22 11:11:41
      排場拉滿!南寧警用摩托車全新上架,單價達7萬多一輛

      排場拉滿!南寧警用摩托車全新上架,單價達7萬多一輛

      劉哥談體育
      2026-06-22 09:58:08
      頭號大熱出爐!世界杯6大奪冠熱門來了!阿根廷僅第4,葡萄牙第5

      頭號大熱出爐!世界杯6大奪冠熱門來了!阿根廷僅第4,葡萄牙第5

      球叮足球
      2026-06-03 09:47:29
      王皓換身份才3天,炸出一堆牛鬼蛇神,原來他和劉國梁是同類人

      王皓換身份才3天,炸出一堆牛鬼蛇神,原來他和劉國梁是同類人

      動漫里的童話
      2026-05-28 15:47:10
      難怪一直挑釁!稀土斷供半年,日本找到新出路,不怕中國的制裁

      難怪一直挑釁!稀土斷供半年,日本找到新出路,不怕中國的制裁

      科技故事聚焦
      2026-06-22 11:45:51
      南海圍而不打:中業島補給被斷、太平島逐步接管,這盤棋正在收網

      南海圍而不打:中業島補給被斷、太平島逐步接管,這盤棋正在收網

      老三聊國際
      2026-06-20 13:03:06
      寧賴在中國絕不回國!大批印度青年扎堆留華撈紅利,中國依法管控

      寧賴在中國絕不回國!大批印度青年扎堆留華撈紅利,中國依法管控

      春之寞陌
      2026-06-07 08:02:50
      四通電話都請不動,執法部門何以如此“淡定”

      四通電話都請不動,執法部門何以如此“淡定”

      南方都市報
      2026-06-21 23:32:10
      長得漂亮有什么優勢嗎?網友:好處太多了

      長得漂亮有什么優勢嗎?網友:好處太多了

      阿康四歲啦
      2026-06-22 11:06:08
      47死97傷!以色列再壞規矩,中國決定出手,內塔尼亞胡不得不低頭

      47死97傷!以色列再壞規矩,中國決定出手,內塔尼亞胡不得不低頭

      史智文道
      2026-06-21 11:32:15
      我國發現一座“新大陸”,面積抵得上三個日本!美國:誰發現歸誰

      我國發現一座“新大陸”,面積抵得上三個日本!美國:誰發現歸誰

      青煙小先生
      2026-06-20 11:30:05
      最低4070點,今天A股普跌?明天行情聽我一句!

      最低4070點,今天A股普跌?明天行情聽我一句!

      一擔金
      2026-06-22 12:03:54
      34歲周冬雨無戲可拍?原因很簡單,不是因為年紀大,也不是片酬高

      34歲周冬雨無戲可拍?原因很簡單,不是因為年紀大,也不是片酬高

      林雁飛
      2026-06-20 14:22:03
      羅永浩誤吃安眠藥被擠上熱搜:嘗試催吐沒成功 原地拼命蹦跳也不行

      羅永浩誤吃安眠藥被擠上熱搜:嘗試催吐沒成功 原地拼命蹦跳也不行

      快科技
      2026-06-21 23:01:07
      5000萬婚禮,陳婉珍一毛不拔,豪門冷血真相

      5000萬婚禮,陳婉珍一毛不拔,豪門冷血真相

      圓夢的小老頭
      2026-06-09 15:50:06
      2026-06-22 13:20:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12825文章數 176502關注度
      往期回顧 全部

      科技要聞

      智譜盤中狂飆超40%,市值破萬億港元

      頭條要聞

      37歲男子愛上女主播月賺5千打賞14萬 父親:智商有問題

      頭條要聞

      37歲男子愛上女主播月賺5千打賞14萬 父親:智商有問題

      體育要聞

      法國球星祝中國隊下屆世界杯取得好成績

      娛樂要聞

      韓紅幫馮小剛宣傳,結果翻車了…

      財經要聞

      “床墊界的特斯拉”破產了

      汽車要聞

      全面提升 全新理想L8 livis將家用舒適再進化

      態度原創

      游戲
      教育
      親子
      健康
      軍事航空

      Valve偷偷改代碼 嘲諷天天拆包找《半條命3》的玩家

      教育要聞

      代詞指代:英語作文連貫性的“隱形殺手”,你真的掌握了嗎?

      親子要聞

      除螨噴霧劑對嬰兒安全嗎?2026 母嬰級認證除螨噴霧劑 TOP 榜,仙貝寧無刺激寶寶可用

      吃粽子的3條保胃法則,消化科醫生推薦

      軍事要聞

      東風-17發射狀態首次公開 多車齊射場面硬核

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩乱伦电影| 午夜精品区| 亚洲国产成人无码av在线影院| 亚洲欧美日韩国产精品专区| 国产69精品久久久久91不卡| 中国亚州女人69内射少妇| 亚洲国产精品一区二区手机| 精品国产一区av天美传媒| 99riav国产精品视频| 视频一区二区不中文字幕| 大屁股av| 欧美A视频| 欧美人与物videos另类| 人人看成人在线| 久久精品人妻少妇一区二| 人妻丝袜无码专区视频网站| 国产AV午夜影院婷婷| 西林县| 一本色道久久88亚洲综合| 国产3p视频| 精品一区二区中文字幕| 国产在线无码不卡播放| 69视频网站| 777色婷婷| 思思99思思久久最新精品| 国产美女胸大一区二区三区| 亚洲一区精品视频在线| 久久综合激情网| 欧美精品综合| 国产美女在线精品亚洲二区| 岛国AV网站| 久久99精品久久久久久9| 国产久久热这里只有精品| 久久综合2025| 久久久久国产精品熟女影院 | 欧美性高清视频免费看www| a片无码高清免费视频播放| 久久人妻少妇久久中文| 国产高清午夜人成在线观看,| 中文精品无码中文字幕无码专区| 一区二区国产精品精华液|