400萬條駕駛演示、3萬小時連續采集、23類真實場景——即便是這樣的數據量,也沒能讓端到端自動駕駛模型的閉環表現穩定增長。這是深度強化學習團隊今年投給ICRA 2026的一組研究成果,他們用三篇論文,圍繞一個核心困惑展開了系統拆解:為什么在自動駕駛這條路上,砸數據、提速度、甚至用上人類的“接管教學”,問題仍然層出不窮?
這件事的起點,來自團隊對“數據規模定律”的執念。過去兩年,大語言模型靠著指數級增長的數據,一再驗證性能平滑攀升的冪律曲線,于是自動駕駛社區自然想問:同樣的道理,能不能套在方向盤和踏板上?為此,課題組專門構建了一個龐大的真實駕駛數據集,不僅包含常規的城市道路、高速巡航,還塞進了長尾的夜間暴雨、無保護左轉、行人突然橫穿等棘手片段。他們用模仿學習的方式,在不同量級的數據子集上反復訓練,然后分別用開環指標和閉環仿真進行雙線評分。
![]()
開環測試的結果完全符合預期。模型在規劃軌跡的誤差、碰撞率等指標上,確實與數據量呈現穩定的冪律關系——數據每翻一倍,性能就穩穩漲一截。然而,一旦把評測搬到更強調連續決策的閉環環境里,這條優雅的直線立刻就垮了。車輛會在某些場景下反復猶豫、頓挫,甚至因為一次遲到的變道而引發連環風險,而這些失誤,恰恰發生在數據量已經“絕對龐大”的情況下。團隊由此點出了一個讓整個行業困惑的真相:自動駕駛的核心瓶頸,已經從“有沒有數據”悄悄轉變為“數據里到底有沒有覆蓋足夠多的危險邊緣”。
他們發現,僅占訓練集極小比例的長尾場景數據,卻幾乎決定了系統在極端情況下的存活率。只要在這些罕見樣本上稍微“加餐”,車輛應對無信號路口博弈、公交港灣匯入等復雜任務的能力就會肉眼可見地增強。更讓團隊興奮的是,如果數據擴展時采用結構化、有層次的策略,而不是簡單堆砌里程數,模型甚至可以表現出“組合泛化”的苗頭——也就是說,它在訓練中從未見過的“新路段形態+新交通參與者行為”組合,竟然也能給出合理的應對。雖然這只是研究階段的現象,但已經足夠讓團隊重新思考自動駕駛數據閉環的底層邏輯:比起無止境地擴大采集車隊,如何系統性識別并補充“關鍵脆弱場景”,或許才是解鎖安全上限的真正鑰匙。
數據的問題還沒完全解決,團隊的另一組人又把目光轉向了規劃環節的實時性難題。他們很清楚,即便模型在離線評測里再漂亮,一旦上車,如果不能在毫秒級的時間內輸出軌跡,一切都是紙上談兵。而目前主流的生成式規劃方法,雖然擅長輸出多條備選路徑,卻因為需要多步迭代采樣,推理延遲始終居高不下,這在需要緊急制動或者快速穿行的動態路口時,往往就是事故的起點。
于是,課題組提出了一個名為ConsistencyPlanner的規劃框架,核心思路其實很簡潔:能不能讓軌跡生成的過程,就像擴散模型“一步到位”生成圖像那樣,在極短的時間內直接給出多種可行方案?他們選中的技術載體,是近來在圖像和語音生成領域突起的“一致性模型”(Consistency Model)。這種模型的特性在于,可以把原本需要幾十步、上百步的采樣過程,壓縮到幾步甚至單步,而生成質量并不會有級聯性的折損。團隊在此基礎上,設計了一套多模態軌跡生成機制,能夠在極低的計算開銷下,一次性探索包括保守跟隨、果斷超車、緊急避讓等在內的不同駕駛意圖,并在規劃器內部并行評判。
當然,手快不等于手穩。為了讓快速生成的軌跡真正“靠譜”,團隊還專門設計了一個注意力增強的異構特征融合解碼器。簡單來說,它可以把高精地圖的拓撲信息、周圍車輛的歷史軌跡、交通信號燈的時序狀態,以及自身車輛的運動指令,像拼圖一樣動態整合成一套高度結構化的場景表征。這種表征沒有簡單地做拼接或平均,而是讓模型自動學會在不同地形和交通流密度下該重點關注哪些信息——比如在混亂的十字路口優先追蹤那個猶豫的左轉車,而在暢通的快速路上更側重速度保持和車道對準。在Waymax仿真平臺的對抗性測試中,ConsistencyPlanner展示出了讓團隊自己都略感意外的表現:它不僅追平甚至超越了現有方法的安全得分,更關鍵的是,在交通參與者行為突變、需要瞬間切換策略的動態場景里,它的穩定性斷層般地甩開了那些慢一拍的生成式對手。
不過,團隊同樣在論文里坦誠,ConsistencyPlanner的探索僅僅是個開始。目前它還依賴仿真環境的理想化傳感器,面對現實世界中丟幀、遮擋、幽靈剎車等意外,這一類快速采樣模型會不會因為過于“自信”而輸出錯誤但速度極快的軌跡,依然是未解之題。但至少,它在證明一件事:自動駕駛的實時規劃,不需要在“多樣化”和“低延遲”之間做痛苦取舍,一致性模型很可能就是撬動這塊蹺蹺板的支點。
數據規律探明了,實時規劃有了新路徑,團隊面對的第三個問題,則更貼近實際部署中的狼狽時刻——車子已經搞砸了,人類踩下剎車或者一把搶過方向盤,這段“救命”的數據,除了甩鍋還能干什么?按照常規的模仿學習流程,這種引發人工接管甚至系統退出的尷尬片段,通常會被當作臟數據丟棄,或者只被簡單記錄為一次失敗案例。但團隊反問了自己一句:如果把這些專家在極端緊急狀態下的糾正動作,看作比常規駕駛更高價值的教學素材呢?
基于這個直白的困惑,他們提出了一套名為TakeAD的后訓練優化框架。它的運作邏輯和傳統的“把正常數據反復練”截然不同,分成兩個接力階段。第一步,是建立一套系統性的專家接管數據采集管道:在模擬器或者測試車運行過程中,一旦車輛出現劇烈卡頓、即將碰撞或者偏離車道超過閾值,就會自動觸發干預,由人類駕駛員接管并完成恢復操作,而這段從危機前奏到恢復到安全狀態的完整軌跡,連同傳感器快照一起被精細保存。第二步,才是真正的“學習如何被救”。
在這個階段,TakeAD并沒有粗暴地用接管數據重新訓練一個新模型,而是選擇了一種更細膩的混合策略。它首先運用迭代式的Dataset Aggregation,也就是DAgger算法,讓模型直接在半監督的節奏下觀測和學習人類是如何把車從失控邊緣拉回來的。每一次訓練迭代后,模型重新上路測試,又會產生新的脆弱片段,再次被專家接管并補充進數據集。這樣幾輪下來,模型逐漸習得一種類似肌肉記憶的恢復本能,比如在高速彎道誤判后如何輕柔回正,而不是猛打方向引發二次危險。然而,團隊很快發現,只學會模仿恢復動作還不夠——有些人類駕駛員的偏好是趨向保守減速,有些則是尋找間隙迅速并線,模型如果不能理解這種偏好,就可能在不同的危險場景間搖擺不定。
為了解決這一點,框架在第二級引入了直接偏好優化(DPO),讓模型拉開得分差距:對于同樣一個危險前狀態,專家的實際接管軌跡被標記為“優先”,而模型原本可能采取的笨拙或激進嘗試則被標記為“不偏好”,通過對比學習的方式,讓模型在概率分布上內化“更好的應對方式”。這種偏好對齊并非簡單的獎賞加權,而是直接在策略層面進行微調,促使模型逐步向著更符合專家風險判斷的方向收斂。在多輪交替訓練之后,TakeAD在閉環Bench2Drive評測中的成績開始說話:相較于純模仿學習基線,車輛的碰撞率和接管頻率雙雙顯著下降,尤其是在之前最容易崩潰的無信號交叉口、復雜合流等場景,系統終于展現出了“先穩住,再通過”的耐心和能力。
這背后引出的深層啟發是,自動駕駛系統的能力邊界不僅取決于訓練時喂進去多少“正常行駛的錄像”,很大程度上也取決于如何消化那些“搞砸后的教誨”。團隊在論文的討論部分毫不避諱地點出,當前行業普遍把接管數據視為KPI中的負向指標,但如果能用偏好驅動的方式把它們轉化為后訓練燃料,每一起危險事件都可能變成加固系統薄弱環節的沙袋。當然,從仿真走向實車,這套框架還必須跨越數據分布偏移和在線部署延遲的鴻溝,但至少它已經為端到端系統的持續進化撕開了一個新的口子。
把三篇論文串在一起,能清晰看到這條線索:數據規模定律的失效,倒逼我們去理解場景覆蓋質量的本質;實時規劃對效率的苛刻要求,催生了生成式模型單步采樣的新架構;而對手動接管數據的重新審視,又讓“失敗”獲得了建設性的訓練價值。深度強化學習團隊的這一組工作,并沒有宣稱自己找到了終極答案,相反,每一篇論文的結尾都掛滿了未解決的實驗條件和假設。但也許這正是困惑與探索交織的正常模樣——當所有人都認為端到端自動駕駛的下一程只是更多的數據、更多的算力時,這群人用扎實的評測和誠實的結論,把問題拉回到了那個老生常談卻被一再擱置的原點:對于自動駕駛這件事,我們到底在學什么,以及是否真的學會了。
在ICRA 2026這類機器人頂會上,有關深度強化學習的應用常常充滿炫目的reward設計和復雜網絡,而這三項研究卻以一種近乎樸素的方式,把目光對準了數據分布、規劃延遲和人類反饋這些基礎得不能再基礎的元素。團隊沒有在論文中給出一個“大一統”的框架,也沒有試圖用同一個模型同時解決三個問題。它們像三把并排擺放的手術刀,分別切開數據、規劃和恢復這三個緊密纏繞的工程死結,提醒著所有同行:也許在追逐更優雅的數學表達之前,我們需要低頭看看,那些讓車輛在仿真器里崩潰繞圈的日常故障,根源究竟在哪里。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.