網易首頁 > 網易號 > 正文申請入駐

DeepSeek陳德里AI論文第二彈：DeliAutoResearch SKILL又進化了

2026-06-01 11:51:49　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

DeepSeek 研究員陳德里（Deli Chen）和 AI 合作的第二篇論文來了！

論文地址：https://victorchen96.github.io/continual_learning_survey.pdf

這篇論文聚焦continual learning（持續學習）與 self-iteration（自我迭代）。在陳德里看來，這是 AI 邁向 AGI 過程中極為關鍵的一步

由于 arXiv 不允許將 AI 列為作者，陳德里這次只能把實際承擔了論文 99% 工作量的 DeepSeek-V4-Pro （負責文字）和 GPT-Image-2（負責圖像），從作者欄移至腳注說明。

在這篇論文里，陳德里的判斷是，未來的 AI 系統不會長期停留在一組凍結參數的形態，而會逐漸演變為能夠持續學習、自我更新、自我迭代的系統

這背后的邏輯也很直接：上下文管理和文檔化記憶，確實可以在一定程度上幫助模型維持注意力、保留任務經驗。但注意力窗口終究會被填滿，到了那個時候，就需要把知識和經驗參數化，以降低認知負擔。

值得注意的是，這不只是一次論文主題上的延伸，也是陳德里搭建的自主科研智能體框架 DeliAutoResearch SKILL自身的一次迭代實驗。

來源：https://x.com/victor207755822/status/2060315686329778432

據陳德里介紹，這一輪模擬同行評審分數達到了 8 分，相比上一篇論文的 6 分有明顯提升。更重要的是，在這篇論文的生成過程中，模型首次嘗試調用更高級的語言模型，自主設計并運行實驗，這也是此前版本尚不具備的能力。

更能體現系統變化的，是論文中披露的生產數據對比。陳德里在第二張圖中對比了兩篇論文的生成過程：從第一篇到第二篇：隨著 SKILL 本身不斷迭代，交互輪數大幅下降，而總 token 消耗顯著上升，這反而是一個非常好的信號！它說明SKILL 正在向更高自主性轉變

換句話說，人工介入變少了，系統自己想和做的部分變多了。對一個自動科研工作流來說，這恰恰是走向更高自主性的信號。

陳德里表示非常期待在不久的將來，DeliAutoResearch SKILL 能夠真正產出大師級的學術寫作。

不過，他也坦言，在閱讀論文的一些關鍵部分后，仍能看到不少提升空間。

如果完全由自己親自撰寫，論文質量或許會更高，但產出速度也會大幅下降。由于當前的核心目標并不是打磨單篇論文，而是持續迭代 DeliAutoResearch SKILL 本身，因此他選擇保留這篇論文中略顯粗糙的部分，將其作為系統繼續進化的反饋樣本。

下面，我們來看一看，這篇論文講了什么。

為什么要統一持續學習和自我改進？

論文提到，在傳統的研究中，持續學習和自我改進往往被當作兩個不同研究方向，但它們面對的是同一個底層問題：模型如何在接收新信息或新目標之后更新自己，同時不破壞已經掌握的能力？

持續學習關注的是模型如何順序適應新的任務或數據；自我改進關注的是模型如何自主增強能力。但兩者的技術難點高度相似：都要在分布變化下穩定優化，都要保留已有表征，都要處理探索與利用之間的權衡，也都要在沒有固定測試集的情況下評估進步。

因此，作者認為，下一代 LLM 訓練管線必然會把外部數據流和模型自生成訓練信號結合起來，形成緊密耦合的反饋循環。也就意味著，統一研究這兩個方向不是方便之舉，而是必要之舉。

核心貢獻一：提出了一個三軸統一分類框架

這篇論文最主要的貢獻之一是提出了首個同時覆蓋大語言模型持續學習與自我改進的分類框架，并將其組織在三個相互正交的維度上：

更新什么：即被更新的是知識、技能、對齊能力還是推理能力；
如何更新：即采用哪一類方法；
何時更新：即更新發生在離線階段、周期性階段、在線階段，還是由特定事件觸發。

這個三軸框架如下圖所示，能夠對任何部署后的學習系統進行精確刻畫，并揭示不同方法之間此前未被充分認識到的聯系。

核心貢獻二：對五大方法類別進行了系統分析

論文系統分析了 100 多篇論文，并將其歸納為五類方法：基于正則化的持續學習、回放與經驗管理、參數高效與模塊化方法、自我改進與自博弈，以及在線自適應方法。對于每一類方法，都形式化描述其核心機制，分析其理論性質，并比較代表性方法。

核心貢獻三：形式化刻畫了自我改進的收斂條件

論文對迭代式自我改進在什么條件下能夠保證收斂而不是發散進行了形式化分析，并將來自自博弈、迭代蒸餾和 Constitutional AI 等研究方向中分散的理論結果，統一到同一個框架之下。

論文認為，自我改進代表了一種范式轉變：模型能力提升正在從依賴人類監督，轉向由模型自主驅動。所提及的方法覆蓋了一個很寬的范圍：從訓練階段的自博弈，通過多輪迭代修改模型權重；到推理階段的推理增強，提升每一次單獨預測的質量；再到理論分析，劃定自我改進究竟能夠達到什么邊界……

這些方法的共同點在于，它們都需要某種 grounding signal，即可靠的錨定信號。這個信號可以是驗證器、一套憲法原則、人類偏好數據，也可以是問題本身的結構。沒有這樣的錨定信號，自我改進的循環最終必然會退化。

如下圖所示，自我改進的軌跡并不取決于生成機制有多復雜，而取決于評估信號的質量，以及它相對于模型自身的獨立性。

核心貢獻四：提出六個開放挑戰

在最后，論文指出了生成式模型持續學習走向成熟過程中，亟待解決的六個關鍵問題，并基于系統分析所揭示的研究空白，為每個問題提出了未來研究方向。

大模型規模能否解決災難性遺忘：更大的模型確實可能更不容易遺忘，但規模不是根治方案。隨著任務持續增加，即使大模型也會遇到容量、干擾和對齊漂移問題。未來需要研究的是，大模型規模如何影響穩定性 — 可塑性權衡，以及是否存在可預測的 Scaling Law。

自我改進的理論極限：模型能否無限自我提升？什么時候會收斂？什么時候會坍塌？論文認為這是核心理論問題。尤其是在缺少外部驗證器的語言任務中，模型很容易陷入自我確認：它會不斷強化自己已經相信的模式，而不一定更接近真實目標。

多模態持續學習：未來模型不只處理文本，還會處理圖像、音頻、視頻和行動數據。多模態模型持續學習時，一個模態的更新可能影響另一個模態。例如更新視覺生成能力，可能影響語言理解；更新語言對齊，也可能影響圖像生成行為。如何跨模態保留能力，是未來研究中需要解決的難題。

安全的持續對齊：模型持續學習時，安全邊界也必須持續保持，可問題在于，任何更新都可能削弱原有對齊能力。因此，論文認為，未來需要「可證明安全」的持續對齊機制：模型變得更強的同時，安全約束不能被遺忘或繞過。

部署時「實時學習」：實時服務要求低延遲和高穩定性，而在線學習需要計算梯度、更新參數、驗證質量、避免回歸等，這兩者「天然沖突」。因此，真實部署中需要設計分層更新機制：哪些變化即時處理？哪些變化延遲批處理？哪些變化必須經過安全審查后才能進入參數？

與 Agent 框架結合：智能體會在長期任務中積累經驗，比如工具調用結果、失敗教訓、用戶偏好、環境反饋等。問題是：什么時候把短期經驗寫入長期記憶？什么時候應該更新參數？哪些經驗只是偶然事件，哪些經驗代表穩定規律？

論文認為，未來需要層級記憶架構，讓 Agent 同時擁有短期情節記憶和長期參數知識，也需要多智能體持續學習機制，讓多個 Agent 共享并整合經驗。

最后，論文的核心判斷是：持續學習和自我改進正在走向融合。真正有前景的方向，是構建這樣一種模型：它既能吸收外部世界的新知識，也能利用自我反思、自我驗證和自我搜索來改進學習策略；既能變得更強，又能保持穩定與安全。

簡言之就是，不只是訓練得更大，而是能不能在不遺忘、不失控的前提下，持續學習、持續對齊、持續自我進化……

那么你呢，如何看待這篇「AI 寫的論文」，歡迎在評論區留言、交流！

https://x.com/victor207755822/status/2060315686329778432

https://victorchen96.github.io/continual_learning_survey.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

MiniMax發布新模型M3，競爭轉向長上下文與Agent能力

鈦媒體APP 2026-06-01 17:45:22
3 跟貼 3
任務成本僅為Claude Opus 4.6 1/9，階躍刷新Flash模型效率

愛范兒 2026-06-01 18:59:33
0 跟貼 0

機器人自回歸的創新，讓星海圖橫掃了7大具身評測基準

機器之心Pro 2026-06-01 21:18:21
0 跟貼 0

別光會調GRPO，來看看真正的大規模RL是怎么煉的

機器之心Pro 2026-06-01 18:44:19
0 跟貼 0
Agent集體進化！騰訊谷歌們加碼，AI打工人要普及了？

雷科技 2026-06-01 11:27:33
10 跟貼 10

朱旻琦：具身智能用一天進化一天、聰明一天機器人普及核心痛點是需要二次開發和適配

財聯社 2026-04-17 16:59:02
0 跟貼 0

AI御三家戰爭：革命、分裂與帝國反撲

鈦媒體APP 2026-06-01 17:24:30
0 跟貼 0
胡彥斌手搓App火了！普通人Vibe Coding到底難在哪里？

雷科技 2026-06-01 22:50:02
0 跟貼 0

安蒙COMPUTEX演講背后：高通正在構筑智能體時代的“計算連續體”

雷科技 2026-06-01 22:07:49
0 跟貼 0
GPU搶了風頭，西部數據說存儲才是AI規模化的真正門檻

鈦媒體APP 2026-06-01 09:46:14
0 跟貼 0
MiniMax M3來了！12小時無人干預煉出4個模型，還把CUDA內核加速到9.4倍

智東西 2026-06-01 13:57:14
2 跟貼 2
邏輯自洽，滿口西巴

小龍追劇 2026-05-31 19:02:33
4 跟貼 4
中國代表"香會"向菲律賓防長提問菲防長現場大放厥詞

北京日報 2026-05-31 21:15:10
1825 跟貼 1825
超市卸豬肉時遭狗多次啃食，員工卻視而不見，店長：氣炸了

星視頻 2026-06-01 10:19:01
92 跟貼 92
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1866 跟貼 1866
大象的遠古傳奇：從磷脂獸到猛犸象，六千萬年的進化奇跡

萌寵小鐵蛋 2026-06-01 21:16:36
1 跟貼 1
貴州大學致歉

澎湃新聞 2026-06-01 12:58:38
777 跟貼 777
再也不敢吐槽李小冉唱歌難聽了

秋葉大叔 2026-06-01 07:40:14
3 跟貼 3
深度長文：人類和外星人之間，真的不存在道德可言嗎？

宇宙時空 2026-06-01 19:00:09
0 跟貼 0
印度邏輯里是看不起美國的！

乍閃超新星 2026-05-31 14:16:53
0 跟貼 0
當你被一個數字困住，那不是巧合，是信號

一隅安穩 2026-06-02 00:00:53
0 跟貼 0
豹2主戰坦克，經歷不斷迭代進化，依舊是陸地之王 #軍事科普

戰爭黑匣子 2026-05-28 21:40:47
1 跟貼 1
南開大學通報生科院院長學術造假，免去其院長職務。（編輯：一凡）

國+社區 2026-05-31 15:56:05
1 跟貼 1
孩子喊胸口疼別大意！出現這個信號，家長要警惕

新浪財經 2026-06-01 23:17:34
0 跟貼 0
關上門后的寧靜，根本救不了你的感情

云朵偷喝奶茶 2026-06-02 00:54:05
0 跟貼 0
他這一個動作，其實是在悄悄確認你的心意

云朵偷喝奶茶 2026-06-02 00:13:34
0 跟貼 0
夜空中最亮的星

國際在線 2026-05-29 08:57:49
1522 跟貼 1522
鄭麗文揭秘：真心難換真心，換策略捅破窗戶紙

一寸時光a 2026-05-30 01:51:30
3 跟貼 3
死腦筋的達里奧，這次把OpenAI干翻了

機器之心Pro 2026-06-01 22:00:28
0 跟貼 0
車輛“發福”，車位需擴容？

海外網 2026-06-01 06:43:14
811 跟貼 811
世界上最快的模型車超過300公里的時速

淺夢看世界 2026-05-30 00:16:47
3 跟貼 3
SpaceX星艦模型真的戳中我了！4斤重的304不銹鋼材質，全鏡面工藝摸起來超有質感，擺在那兒就顯得

制造科技 2026-05-28 18:27:19
27 跟貼 27
收評：創業板指跌2.15% 科創50指數跌5%

財聯社 2026-06-01 15:08:20
234 跟貼 234
樂道純視覺三季度大迭代，貴1萬的激光雷達版值不值？

字節漫游指南 2026-06-01 22:02:27
0 跟貼 0
“耿同學”打假遭平臺限流，為什么認真的人反而輸了？

木蹊說 2026-06-01 23:36:47
0 跟貼 0
原定4944萬元今日開拍，恒大原總裁夏海鈞名下廣州豪宅突遭撤拍！平臺回應：原因未知

每日經濟新聞 2026-06-01 19:29:16
89 跟貼 89
一周3.3k star，微軟開啟Skills自我進化！

機器之心Pro 2026-05-31 18:12:47
1 跟貼 1
張鎮麟太香了！

新民晚報 2026-06-01 09:08:06
266 跟貼 266
女人抬杠邏輯，是永遠無法理解

新大陸影視 2026-05-31 09:40:57
1 跟貼 1
C-130引擎模型！可變槳！可調速！收藏級還原太酷了#航模

制造科技 2026-05-29 08:05:14
0 跟貼 0

機器之心Pro

專業的人工智能媒體

13139文章數 142658關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

健康

數碼

藝術

時尚

手機 / 數碼

房產 / 家居

DeepSeek陳德里AI論文第二彈：DeliAutoResearch SKILL又進化了

黃仁勛演講實錄|40年來PC首次重設計！

河南13人死亡車禍背后：有司機開不動了讓乘客代開車

河南13人死亡車禍背后：有司機開不動了讓乘客代開車

杰威：如果我沒受傷，我們能擊敗馬刺

奚夢瑤婚禮現場圖！一雙兒女當花童

宇樹過會，杭州贏麻了

奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

態度原創

高考志愿填報時間公布！部分考點公布！

干細胞臨床研究向患者收費？別踩坑

惠普推OmniDesk迷你主機：配英特爾新U支持AI加速

吳鎮寫竹，清清爽爽

夏天褲子不用多買，闊腿褲一整個夏天都能穿，日常出行好打理

奇瑞集團5月銷量24.8萬輛同比增長20.5% 出口18.2萬輛再創新高