在具身智能領域,一個問題正變得越來越尖銳:當一個機器人站在廚房里,它究竟應該先“看懂”這個世界,還是先“想清”下一步動作?
過去,大量研究將這兩件事割裂開來,要么專注讓模型描述場景,要么埋頭優化動作序列。但在真實世界中,感知與決策本就是一體的。當機器人抓起一只杯子,它必須同時理解杯子的位置、杯中的液體、傾倒的角度和此刻是否該停止。任何一刻的猶豫或誤判,都意味著任務的失敗。
北京大學副教授穆亞東及北京大學、星源智團隊給出了一套完整的答案。在即將召開的計算機視覺頂會CVPR 2026上,一篇題為《Extending Embodied Question Answering from Perception to Decision》的論文,首次將具身問答從靜態感知擴展到動態決策,提出了大規模數據集EQA-Decision與對應的RoboDecision訓練框架。
該工作構建了覆蓋四大推理模塊、超過四百萬問答對的超大規模數據引擎,并設計出從監督微調到思維鏈再到強化學習的三階段訓練方法,讓模型真正學會“先想后做、看圖決策”,為具身智能的評測和能力建設立下了一道全新的基準線。
![]()
論文鏈接:
CVPR26_EQA.pdf
01.
EQA-Decision:一個為決策而生的百萬級數據引擎
具身問答(Embodied Question Answering, EQA)自提出以來,一直被視為連接視覺感知、語言推理和物理交互的關鍵任務。然而,現有數據集和評測基準長期處于“各自為戰”的狀態,幾乎沒有一個大規模框架能將空間理解、狀態追蹤、因果推理和即時行動決策放在同一語境下統一考量。
這種割裂帶來的后果是,即便是目前最先進的多模態大模型,在面對動態交互場景時也常常表現得像個“紙上談兵”的旁觀者。它們可以準確告訴你“桌子上的紅蘋果在碗的左邊”,卻很難在機器人抓取蘋果的過程中判斷“此刻是否已經抓穩”,更不用說“如果蘋果滑動了,下一步該調整什么動作”。
而為了填補上述空白,研究團隊構建了EQA-Decision數據集,其體量超過四百萬個多模態問答對,數據來源橫跨模擬環境、圖像問答、第一人稱視頻和真實機器人軌跡四大類型。
這些數據被系統性地組織成四大推理模塊,即靜態場景構建、空間理解、任務動態推理和即時決策,并在其下細分為九項子任務。
![]()
其中,靜態場景構建模塊關注物體存在性、狀態、計數和位置等基本場景理解任務,為模型提供對環境的“第一眼認知”。
空間理解模塊則從三個互補視角切入,包括深度與方向、定位與指代,以及行動可能性,幫助模型建立起“哪里是什么,哪里可以做什么”的空間直覺。
這兩個模塊更貼近傳統意義上的感知能力,而真正讓該數據集區別于以往工作的,是任務動態推理和即時決策兩大模塊。
任務動態推理包含了子任務規劃、狀態追蹤與因果推理、以及進度估計三個子類,這種引入時間進程和因果鏈條的設計,促使模型去理解動作的先后邏輯和任務狀態的演變。
而最前沿的即時決策模塊,則將具身問答推向了真正的行動層面。該模塊專注于建模機器人在動態具身環境中的實時決策過程,模型需要在任務執行中的某一瞬間,綜合空間布局、子任務完成度和未來動作后果,完成一次從“看到”到“決定”的完整思維鏈路,給出此刻最合理的即時動作。
比如,在“刷洗水瓶”的任務中,機器人傾斜瓶身倒水,水流仍在流出,此時模型應當回答“等待,直到水流停止”,而非急躁地進入下一步。
正是任務動態推理和即時決策這兩個新引入的模塊,使 EQA-Decision 真正將具身問答從“靜態體檢”升級為“動態實戰”。
02.
RoboDecision:三階段訓練打造“感知-決策”統一體
有了面向決策的數據集,還需要能真正消化這些數據的模型。團隊以Qwen3-VL-8B-Instruct為基座,提出了RoboDecision訓練框架,通過三階段遞進式訓練,逐步將通用多模態模型塑造成擅長具身推理與決策的專家。
![]()
第一階段是SFT(監督微調),在EQA-Decision四大模塊上均勻采樣數據,對語言模型和跨模態融合層進行訓練,注入具身領域的先驗知識,從而提升基礎的空間、時間和決策推理能力。
第二階段是CoT-SFT(思維鏈監督微調),團隊從各模塊均勻采樣約10%的數據,用Gemini生成包含推理依據和最終答案的結構化思維鏈標注,再進一步微調模型。這一步教會模型“先想后答”,形成顯式的多步推理和因果理解能力,也讓后續強化學習階段的獎勵信號更加穩定。
第三階段則是GRPO(強化學習微調),這是RoboDecision框架真正將“感知”與“決策”焊死的環節。許多經過監督微調的模型會過度依賴文本先驗,導致即使視覺輸入發生變化,輸出依然相似,這在要求實時動作調整的具身任務中是致命的。
為此,團隊設計了一種混合獎勵函數,綜合考察推理質量、答案正確性和視覺一致性三個維度。
其中,推理獎勵用E5-large計算模型生成的推理鏈與參考思維鏈的相似度,鼓勵因果一致的空間和時間推理;答案獎勵則對自由文本回答采用語義相似度,對結構化輸出(如坐標、深度)則采用基于規則的評分函數;
最具創新性的是視覺一致性獎勵,它用OpenCLIP對齊生成的推理與視覺觀察,確保模型的思考內容真正反映畫面中的視覺證據,而非靠文本先驗“瞎猜”。這迫使模型不再做一個“脫離畫面的空想家”,而是成為一個緊盯場景變化、根據視覺線索即時調整推理的“實干派”。
這種將視覺對齊明確納入優化目標的思路,在具身模型訓練中尚屬前沿。它相當于在模型的決策回路里植入了一個持續的感官校驗機制,為構建可靠的動作生成系統提供了新的方法論。
03.
全面領先的評測結果:RoboDecision-8B超越GPT-5
為了檢驗成果,團隊建立了一套統一的EQA-Decision Benchmark,涵蓋靜態場景理解、空間-深度推理、視覺指代、時間推理、規劃推理和即時決策六大維度,總計2118個精心篩選的評測樣本,且與訓練集嚴格隔離。
![]()
結果顯示,RoboDecision-8B在整體得分上達到68.06,以顯著優勢超越了包括GPT-5(51.03)、Gemini-2.5-Pro(48.68)、Qwen3-VL-8B-Instruct(48.84)等在內的所有通用基線和具身基線模型。
尤其值得關注的是兩個高難度維度的飛躍。在視覺指代定位任務上,RoboDecision得分 68.12,而Qwen3-VL-8B-Thinking僅23.14,差距懸殊的核心原因正是視覺一致性獎勵強制模型把推理錨定在圖像像素上。
在即時決策任務上,RoboDecision得分 69.93,比最強基線GPT-5的62.25高出7.7個點,充分證明了“感知-決策”一體化訓練的有效性。
此外,在RoboVQA、ERQA等域外具身基準測試上,RoboDecision-8B同樣展現出領先的泛化能力,證實了這套訓練框架的有效性并非局限于自家數據集。
04.
結語與未來
具身智能的真正挑戰,是在動態世界中做出正確決策。此次星源智與北京大學團隊聯合提出的EQA-Decision與RoboDecision,正是從感知智能邁向決策智能的關鍵一步,為后續的科研合作、產業交流和高端人才聚集搭建了一座極具吸引力的技術燈塔。
作為該工作的重要合作方,星源智為研究提供了寶貴的資源支持。CVPR 2026的錄用,不僅是學術層面的突破,更彰顯出公司在具身智能核心算法能力上的深厚積淀。
未來,隨著這類“從感知到決策”的數據集與模型被更廣泛地應用于具身智能研究與機器人學習等領域,或許將看到,機器人不僅能夠理解世界,更學會如何做出正確的行動。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.