![]()
機器之心編輯部
DeepSeek 研究員陳德里(Deli Chen)和 AI 合作的第二篇論文來了!
![]()
論文地址:https://victorchen96.github.io/continual_learning_survey.pdf
這篇論文聚焦continual learning(持續學習) 與 self-iteration(自我迭代)。在陳德里看來,這是 AI 邁向 AGI 過程中極為關鍵的一步
由于 arXiv 不允許將 AI 列為作者,陳德里這次只能把實際承擔了論文 99% 工作量的 DeepSeek-V4-Pro (負責文字)和 GPT-Image-2(負責圖像),從作者欄移至腳注說明。
在這篇論文里,陳德里的判斷是,未來的 AI 系統不會長期停留在一組凍結參數的形態,而會逐漸演變為能夠持續學習、自我更新、自我迭代的系統
這背后的邏輯也很直接:上下文管理和文檔化記憶,確實可以在一定程度上幫助模型維持注意力、保留任務經驗。但注意力窗口終究會被填滿,到了那個時候,就需要把知識和經驗參數化,以降低認知負擔。
值得注意的是,這不只是一次論文主題上的延伸,也是陳德里搭建的自主科研智能體框架 DeliAutoResearch SKILL自身的一次迭代實驗。
![]()
來源:https://x.com/victor207755822/status/2060315686329778432
據陳德里介紹,這一輪模擬同行評審分數達到了 8 分,相比上一篇論文的 6 分有明顯提升。更重要的是,在這篇論文的生成過程中,模型首次嘗試調用更高級的語言模型,自主設計并運行實驗,這也是此前版本尚不具備的能力。
更能體現系統變化的,是論文中披露的生產數據對比。陳德里在第二張圖中對比了兩篇論文的生成過程:從第一篇到第二篇:隨著 SKILL 本身不斷迭代,交互輪數大幅下降,而總 token 消耗顯著上升,這反而是一個非常好的信號!它說明SKILL 正在向更高自主性轉變
換句話說,人工介入變少了,系統自己想和做的部分變多了。對一個自動科研工作流來說,這恰恰是走向更高自主性的信號。
![]()
陳德里表示非常期待在不久的將來,DeliAutoResearch SKILL 能夠真正產出大師級的學術寫作。
不過,他也坦言,在閱讀論文的一些關鍵部分后,仍能看到不少提升空間。
如果完全由自己親自撰寫,論文質量或許會更高,但產出速度也會大幅下降。由于當前的核心目標并不是打磨單篇論文,而是持續迭代 DeliAutoResearch SKILL 本身,因此他選擇保留這篇論文中略顯粗糙的部分,將其作為系統繼續進化的反饋樣本。
![]()
下面,我們來看一看,這篇論文講了什么。
為什么要統一持續學習和自我改進?
論文提到,在傳統的研究中,持續學習和自我改進往往被當作兩個不同研究方向,但它們面對的是同一個底層問題:模型如何在接收新信息或新目標之后更新自己,同時不破壞已經掌握的能力?
持續學習關注的是模型如何順序適應新的任務或數據;自我改進關注的是模型如何自主增強能力。但兩者的技術難點高度相似:都要在分布變化下穩定優化,都要保留已有表征,都要處理探索與利用之間的權衡,也都要在沒有固定測試集的情況下評估進步。
因此,作者認為,下一代 LLM 訓練管線必然會把外部數據流和模型自生成訓練信號結合起來,形成緊密耦合的反饋循環。也就意味著,統一研究這兩個方向不是方便之舉,而是必要之舉。
核心貢獻一:提出了一個三軸統一分類框架
這篇論文最主要的貢獻之一是提出了首個同時覆蓋大語言模型持續學習與自我改進的分類框架,并將其組織在三個相互正交的維度上:
- 更新什么:即被更新的是知識、技能、對齊能力還是推理能力;
- 如何更新:即采用哪一類方法;
- 何時更新:即更新發生在離線階段、周期性階段、在線階段,還是由特定事件觸發。
這個三軸框架如下圖所示,能夠對任何部署后的學習系統進行精確刻畫,并揭示不同方法之間此前未被充分認識到的聯系。
![]()
核心貢獻二:對五大方法類別進行了系統分析
論文系統分析了 100 多篇論文,并將其歸納為五類方法:基于正則化的持續學習、回放與經驗管理、參數高效與模塊化方法、自我改進與自博弈,以及在線自適應方法。對于每一類方法,都形式化描述其核心機制,分析其理論性質,并比較代表性方法。
核心貢獻三:形式化刻畫了自我改進的收斂條件
論文對迭代式自我改進在什么條件下能夠保證收斂而不是發散進行了形式化分析,并將來自自博弈、迭代蒸餾和 Constitutional AI 等研究方向中分散的理論結果,統一到同一個框架之下。
論文認為,自我改進代表了一種范式轉變:模型能力提升正在從依賴人類監督,轉向由模型自主驅動。所提及的方法覆蓋了一個很寬的范圍:從訓練階段的自博弈,通過多輪迭代修改模型權重;到推理階段的推理增強,提升每一次單獨預測的質量;再到理論分析,劃定自我改進究竟能夠達到什么邊界……
這些方法的共同點在于,它們都需要某種 grounding signal,即可靠的錨定信號。這個信號可以是驗證器、一套憲法原則、人類偏好數據,也可以是問題本身的結構。沒有這樣的錨定信號,自我改進的循環最終必然會退化。
如下圖所示,自我改進的軌跡并不取決于生成機制有多復雜,而取決于評估信號的質量,以及它相對于模型自身的獨立性。
![]()
核心貢獻四:提出六個開放挑戰
在最后,論文指出了生成式模型持續學習走向成熟過程中,亟待解決的六個關鍵問題,并基于系統分析所揭示的研究空白,為每個問題提出了未來研究方向。
大模型規模能否解決災難性遺忘:更大的模型確實可能更不容易遺忘,但規模不是根治方案。隨著任務持續增加,即使大模型也會遇到容量、干擾和對齊漂移問題。未來需要研究的是,大模型規模如何影響穩定性 — 可塑性權衡,以及是否存在可預測的 Scaling Law。
自我改進的理論極限:模型能否無限自我提升?什么時候會收斂?什么時候會坍塌?論文認為這是核心理論問題。尤其是在缺少外部驗證器的語言任務中,模型很容易陷入自我確認:它會不斷強化自己已經相信的模式,而不一定更接近真實目標。
多模態持續學習:未來模型不只處理文本,還會處理圖像、音頻、視頻和行動數據。多模態模型持續學習時,一個模態的更新可能影響另一個模態。例如更新視覺生成能力,可能影響語言理解;更新語言對齊,也可能影響圖像生成行為。如何跨模態保留能力,是未來研究中需要解決的難題。
安全的持續對齊:模型持續學習時,安全邊界也必須持續保持,可問題在于,任何更新都可能削弱原有對齊能力。因此,論文認為,未來需要「可證明安全」的持續對齊機制:模型變得更強的同時,安全約束不能被遺忘或繞過。
部署時「實時學習」:實時服務要求低延遲和高穩定性,而在線學習需要計算梯度、更新參數、驗證質量、避免回歸等,這兩者「天然沖突」。因此,真實部署中需要設計分層更新機制:哪些變化即時處理?哪些變化延遲批處理?哪些變化必須經過安全審查后才能進入參數?
與 Agent 框架結合:智能體會在長期任務中積累經驗,比如工具調用結果、失敗教訓、用戶偏好、環境反饋等。問題是:什么時候把短期經驗寫入長期記憶?什么時候應該更新參數?哪些經驗只是偶然事件,哪些經驗代表穩定規律?
論文認為,未來需要層級記憶架構,讓 Agent 同時擁有短期情節記憶和長期參數知識,也需要多智能體持續學習機制,讓多個 Agent 共享并整合經驗。
最后,論文的核心判斷是:持續學習和自我改進正在走向融合。真正有前景的方向,是構建這樣一種模型:它既能吸收外部世界的新知識,也能利用自我反思、自我驗證和自我搜索來改進學習策略;既能變得更強,又能保持穩定與安全。
簡言之就是,不只是訓練得更大,而是能不能在不遺忘、不失控的前提下,持續學習、持續對齊、持續自我進化……
那么你呢,如何看待這篇「AI 寫的論文」,歡迎在評論區留言、交流!
https://x.com/victor207755822/status/2060315686329778432
https://victorchen96.github.io/continual_learning_survey.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.