允中 發自 凹非寺
量子位 | 公眾號 QbitAI
在機器人、自動駕駛、AR等真實場景中,空間理解從來都不是“看一眼圖像”就能解決的問題。
相機持續移動、視角不斷變化、目標時隱時現,空間信息從來不是明確且集中的,而是往往分散在長時間視頻流里,模型不僅要“看得見”,更要“記得住、連得起來、還能持續更新”
這使得流式空間智能成為多模態大模型邁向真實世界應用的一道關鍵門檻。
這篇文章的出發點是思考:多模態Agent如何在動態變化的世界中持續更新自己,而不是每次都像第一次看見世界。
真實世界不是一張靜態圖片,也不是一段固定長度的視頻,而是一段持續展開的經驗流
正如人理解空間,也不是一次性看完整個房間,而是在移動、觀察、遺忘、修正中,逐漸形成穩定的空間記憶。
近日,由清華大學博士生劉芳甫擔任一作,聯合多位研究者共同完成的Spatial-TTT,被計算機視覺頂級會議ECCV 2026正式接收。
![]()
ECCV與CVPR、ICCV通常并稱為計算機視覺三大頂級會議,每兩年舉辦一屆,用率常年偏低。
對于一項工作而言,入選ECCV不只是多了一個會議標簽,也意味著它需要在研究問題、方法創新與實驗完整性上接受嚴格的同行評審。
Spatial-TTT瞄準的,正是多模態模型從“看懂畫面”邁向“理解真實空間”過程中一個尚未解決的核心問題:
當視頻不斷延長,模型能否不依賴無限膨脹的上下文,而是在觀看過程中,持續形成并更新自己的空間記憶?
實驗中,僅有2B參數的Spatial-TTT,在論文測試的多個專項空間智能基準上超過GPT-5、Gemini-3-pro等閉源模型,并能夠處理最長120分鐘的流式視頻。
它所給出的答案可以概括為一句話:
讓模型不只是看視頻,而是在觀看過程中,邊看、邊更新、邊“長出”一份空間記憶
能看長視頻,不等于能夠記住和理解空間
空間智能的難點,從來不只是“把上下文做長”,而是空間信息該如何在時間維度上被選擇、組織、保留下來
在真實場景中,模型面對的是一段持續涌入的視覺流:
相機移動會改變視角,遮擋會打斷觀察,物體的顯隱又會讓關鍵證據散落在相距很遠的時刻。
現有方法嘗試過引入深度信息、多視角輸入、空間專項微調數據,乃至訓練專用空間模型,但大多仍局限于單張圖像或短視頻片段,很難擴展到真實應用中動輒幾十分鐘、幾小時的長時程流式視頻。
更進一步看,問題的核心并不只是模型"窗口不夠長",而是它缺少一種機制,能在推理過程中不斷把新觀察吸收進內部狀態,再把這些狀態組織成一份可供后續調用的空間記憶。
傳統的靜態推理范式很難解決這一點,而TTT恰好提供了另一種可能:讓模型在推理時邊看邊更新參數,用參數本身的變化來承擔記憶功能。
![]()
Spatial-TTT:把模型參數變成動態記憶
為應對上述挑戰,研究團隊提出Spatial-TTT,將fast weights作為一種緊湊的非線性記憶,在處理視頻流的同時進行在線更新,不斷累積跨時間的3D空間證據。
與把整段視頻一次性塞進上下文不同,Spatial-TTT更像是在持續“維護一份空間狀態”
每當新的視頻chunk到來,模型就對已有的空間記憶做一次增量式刷新。
![]()
TTT概念并不新,難的是讓它真正理解空間
TTT此前已經被用于語言建模、新視角合成和視頻生成,但流式視覺空間理解有其特殊性:
模型既要保留預訓練階段形成的視覺—語言能力,又要顯式利用視頻token的局部幾何與時間連續性,還需要足夠密集的監督,教會快速權重哪些空間信息值得長期保留。
圍繞這三個問題,Spatial-TTT分別設計了混合架構、空間預測機制和密集場景描述監督
設計一:混合式TTT架構,完美兼顧預訓練知識和長視頻處理
直接把所有注意力層替換成TTT層,理論上效率更高,但會破壞原始多模態模型的跨模態對齊與語義能力,相當于在獲得長程記憶的同時,丟失了模型原本的語義理解能力。
為此,研究團隊設計了混合式TTT架構
- 在解碼器中按照3:1的比例交錯插入TTT層與標準self-attention anchor layers,其中75%的層采用TTT,負責將長程信息寫入快速權重;
- 25%的層保留標準全注意力,作為錨定層,維持預訓練模型已有的語義理解和跨模態推理能力。
也就是說,Spatial-TTT并非用TTT取代注意力,而是讓兩者各自承擔不同角色:TTT負責記得更久,全注意力負責理解得更準。
與此同時,為提升大塊視覺token的處理效率,模型還引入了large-chunk更新,并搭配并行的sliding-window attention
前者大幅提升GPU利用率,避免傳統TTT小塊頻繁更新導致的效率低下,以及強行切斷幀內空間結構的問題;
后者則保證chunk內部仍具有完整的因果局部交互,避免空間連續性被更新邊界打斷。
兩者分工明確:滑動窗口負責處理近期幀和局部結構,快速權重則負責跨塊保存更長期的信息。
這一設計讓模型在長視頻場景下既具備線性復雜度帶來的可擴展性,又不會犧牲局部時空建模能力。
設計二:Spatial-predictive mechanism,讓在線記憶真正“懂空間”
僅僅把TTT搬到視頻中還不夠。
研究團隊觀察到,傳統TTT中Q/K/V通常通過逐點線性投影生成,這意味著每個視覺token在進入快速權重之前,主要被當成一個孤立單元處理——
這種方式忽略了視覺token之間天然存在的局部幾何結構和時間連續性,不利于空間狀態的穩定更新。
但視覺空間信息天然存在于局部關系中,如果忽略這種局部連續性,快速權重就需要從零開始推斷幾何關系,記憶也更容易變得碎片化。
為此,Spatial-TTT在TTT分支中引入了空間預測機制(spatial-predictive mechanism),對Q/K/V加入輕量級3D時空卷積。
經過這一處理,fast weights學到的就不再是孤立token之間的映射,而是時空上下文到時空上下文的預測關系,從而能更好地捕捉幾何對應、視角變化與時間連續性,顯著增強在線更新的穩定性與有效性。
設計三:稠密場景描述監督,模型從“會答題”走向“維護全局3D記憶”
現有空間智能數據大多是稀疏、局部的Q&A監督,例如判斷兩個物體的相對關系,或者回答一個整數計數問題——
這類短答案,只能覆蓋場景狀態中的極小部分,對fast weights學習長期有效的更新動態幫助有限。
問題在于,快速權重需要學習的是如何持續維護整個場景,而不僅僅是提取某個局部答案。
如果訓練中只問桌子和椅子的關系,模型就沒有動力記住房間里其他物體,也沒有動力形成完整的空間布局。
因此,研究團隊構建了一份稠密的3D場景描述數據
這份數據要求模型生成覆蓋場景全局語境、物體類別與數量、空間關系等內容的scene walkthrough,用更高覆蓋率的監督信號來訓練fast weights。
該訓練采用兩階段spatial-aware progressive training方式:第一階段,模型先在密集場景描述上學習如何“記住整個空間”,形成全局3D意識;
第二階段,再用數百萬條spatial VQA數據,進一步強化方向判斷、距離估計、計數、房間大小估計和路線規劃等流式空間推理能力。
實驗結果:不僅更會“想空間”,也更能“撐長視頻”
實驗結果顯示,Spatial-TTT在多個空間智能基準上都取得了非常強的表現。
在VSI-Bench上,作為一個2B規模模型,Spatial-TTT-2B取得了64.4的平均分,超過多種閉源與開源基線;
其中在Absolute Distance、Relative Direction、Route Plan、Appearance Order等任務上表現尤為突出,說明它在度量級空間估計、方向判斷與路徑規劃等任務上具備更強能力。
![]()
在更考驗多視角細粒度空間推理的MindCube-Tiny上,Spatial-TTT拿下76.2%的準確率,比最強閉源基線Gemini-3-pro(63.9%)高出12個百分點,比代表性開源空間模型MindCube-3B(51.7%)高出近25個百分點。
論文有效證明了Spatial-TTT在視角變化與遮擋條件下展現出更穩健的空間推理能力。
![]()
在考驗“長期記憶”的VSI-SUPER系列任務上,Spatial-TTT的優勢進一步被放大。
對于需要長時間累計證據的VSI-SUPER-Count,Spatial-TTT在10、30、60、120分鐘視頻上的得分,分別達到31.8、45.6、36.2、38.4;
相比之下,一些通用多模態模型和空間模型在更長視頻上要么性能快速崩塌,要么直接OOM(內存/顯存耗盡)。
而之所以能在更長時程下保持穩定,正是因為Spatial-TTT通過在線更新逐步整合新觀察,而不是被動依賴一次性長上下文處理。
![]()
深度分析:Spatial-TTT的提升究竟來自哪里?
消融實驗表明,Spatial-TTT的性能提升并不是單一技巧帶來的,而是三個設計協同發力的結果:
- 去掉空間預測機制,VSI-Bench平均分從64.4降到62.1;
- 去掉密集場景描述監督,降到61.3;
- 如果完全去掉混合架構、只用純TTT結構,平均分直接掉到53.9。
這說明架構設計、時空歸納偏置與監督信號之間存在顯著的協同效應。
效率分析同樣值得關注。
在1024幀輸入設置下,Spatial-TTT-2B的峰值顯存占用為11.9GB,理論計算量為799.4 TFLOPs;
相比之下,行業領先的大廠模型分別為21.2GB和1403.1 TFLOPs——
也就是說,Spatial-TTT在長上下文下實現了超過40%的顯存與計算節省。
此外,帶顯式幾何編碼器的Spatial-MLLM-4B在512幀和1024幀場景下已無法運行。
總結與展望:從“保存更多內容”,走向“形成持續的世界狀態”
Spatial-TTT最值得關注的,不只是一個2B模型在多個空間智能基準上的領先成績,它還提供了一種重新理解長視頻記憶問題的方式。
傳統長上下文方案試圖保留更多歷史內容,Spatial-TTT則進一步追問:
模型能否將持續到來的視覺觀察,轉化為一份能夠不斷更新、修正和調用的內部空間狀態?
它不需要永久保存每一幀畫面,卻需要知道自己經過了哪里、看到了什么,以及空間關系如何隨著新的觀察發生變化。
這對于真正進入物理世界的Agent尤其重要。
機器人不會只進入一次房間,自動駕駛系統不會只經過一次路口,AR設備也不會只觀察幾秒鐘的環境。
它們需要在長期運行中積累空間經驗,讓此前的觀察真正影響之后的感知與決策,而不是在每一次任務開始時重新理解周圍世界。
對于這些需要長期連續運行的Physical Agent系統而言,這項入選ECCV 2026的工作所提供的,或許不只是一個表現更強的空間智能模型,更是一條從流式視覺感知走向持續世界狀態建模的路徑。
更關鍵的變化在于,過去的觀察開始參與下一次判斷與行動。
當空間信息能夠被持續積累、修正和調用,Agent面對的就不再是一幀幀彼此割裂的畫面,而是一個具有連續性、能夠被理解并進一步作用于其中的世界。
論文鏈接:https://arxiv.org/pdf/2603.12255
項目主頁:https://liuff19.github.io/Spatial-TTT/
GitHub:https://github.com/THU-SI/Spatial-TTT/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.