<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek陳德里AI論文第二彈:DeliAutoResearch SKILL又進化了

      0
      分享至



      機器之心編輯部

      DeepSeek 研究員陳德里(Deli Chen)和 AI 合作的第二篇論文來了!



      論文地址:https://victorchen96.github.io/continual_learning_survey.pdf

      這篇論文聚焦continual learning(持續學習) 與 self-iteration(自我迭代)。在陳德里看來,這是 AI 邁向 AGI 過程中極為關鍵的一步

      由于 arXiv 不允許將 AI 列為作者,陳德里這次只能把實際承擔了論文 99% 工作量的 DeepSeek-V4-Pro (負責文字)和 GPT-Image-2(負責圖像),從作者欄移至腳注說明。

      在這篇論文里,陳德里的判斷是,未來的 AI 系統不會長期停留在一組凍結參數的形態,而會逐漸演變為能夠持續學習、自我更新、自我迭代的系統

      這背后的邏輯也很直接:上下文管理和文檔化記憶,確實可以在一定程度上幫助模型維持注意力、保留任務經驗。但注意力窗口終究會被填滿,到了那個時候,就需要把知識和經驗參數化,以降低認知負擔。

      值得注意的是,這不只是一次論文主題上的延伸,也是陳德里搭建的自主科研智能體框架 DeliAutoResearch SKILL自身的一次迭代實驗。



      來源:https://x.com/victor207755822/status/2060315686329778432

      據陳德里介紹,這一輪模擬同行評審分數達到了 8 分,相比上一篇論文的 6 分有明顯提升。更重要的是,在這篇論文的生成過程中,模型首次嘗試調用更高級的語言模型,自主設計并運行實驗,這也是此前版本尚不具備的能力。

      更能體現系統變化的,是論文中披露的生產數據對比。陳德里在第二張圖中對比了兩篇論文的生成過程:從第一篇到第二篇:隨著 SKILL 本身不斷迭代,交互輪數大幅下降,而總 token 消耗顯著上升,這反而是一個非常好的信號!它說明SKILL 正在向更高自主性轉變

      換句話說,人工介入變少了,系統自己想和做的部分變多了。對一個自動科研工作流來說,這恰恰是走向更高自主性的信號。



      陳德里表示非常期待在不久的將來,DeliAutoResearch SKILL 能夠真正產出大師級的學術寫作。

      不過,他也坦言,在閱讀論文的一些關鍵部分后,仍能看到不少提升空間。

      如果完全由自己親自撰寫,論文質量或許會更高,但產出速度也會大幅下降。由于當前的核心目標并不是打磨單篇論文,而是持續迭代 DeliAutoResearch SKILL 本身,因此他選擇保留這篇論文中略顯粗糙的部分,將其作為系統繼續進化的反饋樣本。



      下面,我們來看一看,這篇論文講了什么。

      為什么要統一持續學習和自我改進?

      論文提到,在傳統的研究中,持續學習和自我改進往往被當作兩個不同研究方向,但它們面對的是同一個底層問題:模型如何在接收新信息或新目標之后更新自己,同時不破壞已經掌握的能力?

      持續學習關注的是模型如何順序適應新的任務或數據;自我改進關注的是模型如何自主增強能力。但兩者的技術難點高度相似:都要在分布變化下穩定優化,都要保留已有表征,都要處理探索與利用之間的權衡,也都要在沒有固定測試集的情況下評估進步。

      因此,作者認為,下一代 LLM 訓練管線必然會把外部數據流和模型自生成訓練信號結合起來,形成緊密耦合的反饋循環。也就意味著,統一研究這兩個方向不是方便之舉,而是必要之舉。

      核心貢獻一:提出了一個三軸統一分類框架

      這篇論文最主要的貢獻之一是提出了首個同時覆蓋大語言模型持續學習與自我改進的分類框架,并將其組織在三個相互正交的維度上:

      • 更新什么:即被更新的是知識、技能、對齊能力還是推理能力;
      • 如何更新:即采用哪一類方法;
      • 何時更新:即更新發生在離線階段、周期性階段、在線階段,還是由特定事件觸發。

      這個三軸框架如下圖所示,能夠對任何部署后的學習系統進行精確刻畫,并揭示不同方法之間此前未被充分認識到的聯系。



      核心貢獻二:對五大方法類別進行了系統分析

      論文系統分析了 100 多篇論文,并將其歸納為五類方法:基于正則化的持續學習、回放與經驗管理、參數高效與模塊化方法、自我改進與自博弈,以及在線自適應方法。對于每一類方法,都形式化描述其核心機制,分析其理論性質,并比較代表性方法。

      核心貢獻三:形式化刻畫了自我改進的收斂條件

      論文對迭代式自我改進在什么條件下能夠保證收斂而不是發散進行了形式化分析,并將來自自博弈、迭代蒸餾和 Constitutional AI 等研究方向中分散的理論結果,統一到同一個框架之下。

      論文認為,自我改進代表了一種范式轉變:模型能力提升正在從依賴人類監督,轉向由模型自主驅動。所提及的方法覆蓋了一個很寬的范圍:從訓練階段的自博弈,通過多輪迭代修改模型權重;到推理階段的推理增強,提升每一次單獨預測的質量;再到理論分析,劃定自我改進究竟能夠達到什么邊界……

      這些方法的共同點在于,它們都需要某種 grounding signal,即可靠的錨定信號。這個信號可以是驗證器、一套憲法原則、人類偏好數據,也可以是問題本身的結構。沒有這樣的錨定信號,自我改進的循環最終必然會退化。

      如下圖所示,自我改進的軌跡并不取決于生成機制有多復雜,而取決于評估信號的質量,以及它相對于模型自身的獨立性。



      核心貢獻四:提出六個開放挑戰

      在最后,論文指出了生成式模型持續學習走向成熟過程中,亟待解決的六個關鍵問題,并基于系統分析所揭示的研究空白,為每個問題提出了未來研究方向。

      大模型規模能否解決災難性遺忘:更大的模型確實可能更不容易遺忘,但規模不是根治方案。隨著任務持續增加,即使大模型也會遇到容量、干擾和對齊漂移問題。未來需要研究的是,大模型規模如何影響穩定性 — 可塑性權衡,以及是否存在可預測的 Scaling Law。

      自我改進的理論極限:模型能否無限自我提升?什么時候會收斂?什么時候會坍塌?論文認為這是核心理論問題。尤其是在缺少外部驗證器的語言任務中,模型很容易陷入自我確認:它會不斷強化自己已經相信的模式,而不一定更接近真實目標。

      多模態持續學習:未來模型不只處理文本,還會處理圖像、音頻、視頻和行動數據。多模態模型持續學習時,一個模態的更新可能影響另一個模態。例如更新視覺生成能力,可能影響語言理解;更新語言對齊,也可能影響圖像生成行為。如何跨模態保留能力,是未來研究中需要解決的難題。

      安全的持續對齊:模型持續學習時,安全邊界也必須持續保持,可問題在于,任何更新都可能削弱原有對齊能力。因此,論文認為,未來需要「可證明安全」的持續對齊機制:模型變得更強的同時,安全約束不能被遺忘或繞過。

      部署時「實時學習」:實時服務要求低延遲和高穩定性,而在線學習需要計算梯度、更新參數、驗證質量、避免回歸等,這兩者「天然沖突」。因此,真實部署中需要設計分層更新機制:哪些變化即時處理?哪些變化延遲批處理?哪些變化必須經過安全審查后才能進入參數?

      與 Agent 框架結合:智能體會在長期任務中積累經驗,比如工具調用結果、失敗教訓、用戶偏好、環境反饋等。問題是:什么時候把短期經驗寫入長期記憶?什么時候應該更新參數?哪些經驗只是偶然事件,哪些經驗代表穩定規律?

      論文認為,未來需要層級記憶架構,讓 Agent 同時擁有短期情節記憶和長期參數知識,也需要多智能體持續學習機制,讓多個 Agent 共享并整合經驗。

      最后,論文的核心判斷是:持續學習和自我改進正在走向融合。真正有前景的方向,是構建這樣一種模型:它既能吸收外部世界的新知識,也能利用自我反思、自我驗證和自我搜索來改進學習策略;既能變得更強,又能保持穩定與安全。

      簡言之就是,不只是訓練得更大,而是能不能在不遺忘、不失控的前提下,持續學習、持續對齊、持續自我進化……

      那么你呢,如何看待這篇「AI 寫的論文」,歡迎在評論區留言、交流!

      https://x.com/victor207755822/status/2060315686329778432

      https://victorchen96.github.io/continual_learning_survey.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      巴菲特“接班人”首筆68億美元大單押注房地產 分析師:他在賭周期反轉

      巴菲特“接班人”首筆68億美元大單押注房地產 分析師:他在賭周期反轉

      紅星新聞
      2026-06-01 19:30:39
      多名院士呼吁:65歲后,血糖不超過這個范圍,別亂吃藥害了自己

      多名院士呼吁:65歲后,血糖不超過這個范圍,別亂吃藥害了自己

      荊醫生科普
      2026-06-01 11:09:11
      法國外長強烈譴責:這是一個嚴重錯誤!

      法國外長強烈譴責:這是一個嚴重錯誤!

      上觀新聞
      2026-05-31 19:49:03
      唐山大地震來臨前的詭異征兆,災難現場比影視中更慘烈

      唐山大地震來臨前的詭異征兆,災難現場比影視中更慘烈

      史政先鋒
      2026-05-30 17:08:06
      越來越多的縣城,只剩下體制內經濟了!

      越來越多的縣城,只剩下體制內經濟了!

      黯泉
      2026-05-13 11:15:55
      NBA新王已立!文班亞馬搶七馴服雷霆,總決賽上演99年經典重演

      NBA新王已立!文班亞馬搶七馴服雷霆,總決賽上演99年經典重演

      賽場名場面
      2026-06-02 00:22:19
      風向大變!大陸反“獨”警告后,蔣萬安支持率飆升,他反對統一?

      風向大變!大陸反“獨”警告后,蔣萬安支持率飆升,他反對統一?

      小陸搞笑日常
      2026-06-01 21:15:39
      俄高層向普京警告:戰爭開支失控,國庫難以支撐經濟承壓

      俄高層向普京警告:戰爭開支失控,國庫難以支撐經濟承壓

      桂系007
      2026-06-01 23:58:44
      南航:一口氣退掉8架飛機!

      南航:一口氣退掉8架飛機!

      民航之翼
      2026-06-01 21:04:59
      特朗普又出招了,總部設在中國就“封殺”!

      特朗普又出招了,總部設在中國就“封殺”!

      果媽聊娛樂
      2026-06-01 23:01:20
      5天3王炸!中國科技將進入大爆發周期,西方這下徹底看懵了

      5天3王炸!中國科技將進入大爆發周期,西方這下徹底看懵了

      粵語音樂噴泉
      2026-06-01 18:54:52
      Netflix王牌美劇,后勁太頂了

      Netflix王牌美劇,后勁太頂了

      來看美劇
      2026-05-10 22:02:14
      張雪機車收獲兩個第8名,張雪發文反對車手德比斯攬責:“知道短板了就改進,相信下一代賽車更強”

      張雪機車收獲兩個第8名,張雪發文反對車手德比斯攬責:“知道短板了就改進,相信下一代賽車更強”

      都市快報橙柿互動
      2026-06-01 08:57:58
      反常識:癌癥擴散最兇猛的不是晚年,是中年

      反常識:癌癥擴散最兇猛的不是晚年,是中年

      科學邊界哦
      2026-05-31 23:36:10
      敗軍之將被捧上神壇,那些瘋狂洗白國民黨將領的人到底在洗什么?

      敗軍之將被捧上神壇,那些瘋狂洗白國民黨將領的人到底在洗什么?

      浪子說
      2026-06-02 00:25:03
      強如梅西都未曾做到!巴薩“棄將”逆天改命,完成歐冠衛冕壯舉!

      強如梅西都未曾做到!巴薩“棄將”逆天改命,完成歐冠衛冕壯舉!

      田先生籃球
      2026-05-31 09:14:59
      破案!全場9次攤手,王博卻不敢罵孫總原因找到,浙迷說出大實話

      破案!全場9次攤手,王博卻不敢罵孫總原因找到,浙迷說出大實話

      后仰大風車
      2026-06-01 08:15:12
      山姆超市 大媽拿桶接免費可樂,購物車上還有幾個空桶,少年看呆

      山姆超市 大媽拿桶接免費可樂,購物車上還有幾個空桶,少年看呆

      凡知
      2026-05-25 13:54:50
      史上最和諧的皇室兄弟:哥哥將皇位讓給弟弟,弟弟追封哥哥為皇帝

      史上最和諧的皇室兄弟:哥哥將皇位讓給弟弟,弟弟追封哥哥為皇帝

      鶴羽說個事
      2026-05-30 23:07:30
      10歲考上本科的“天才神童”近況曝光:他用一生,向父母完成最殘忍的“復仇”

      10歲考上本科的“天才神童”近況曝光:他用一生,向父母完成最殘忍的“復仇”

      一刻talks丨硬科技趣思想
      2026-05-28 21:03:05
      2026-06-02 01:07:01
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13139文章數 142658關注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設計!

      頭條要聞

      河南13人死亡車禍背后:有司機開不動了讓乘客代開車

      頭條要聞

      河南13人死亡車禍背后:有司機開不動了讓乘客代開車

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現場圖!一雙兒女當花童

      財經要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

      態度原創

      教育
      健康
      數碼
      藝術
      時尚

      教育要聞

      高考志愿填報時間公布!部分考點公布!

      干細胞臨床研究向患者收費?別踩坑

      數碼要聞

      惠普推OmniDesk迷你主機:配英特爾新U支持AI加速

      藝術要聞

      吳鎮寫竹,清清爽爽

      夏天褲子不用多買,闊腿褲一整個夏天都能穿,日常出行好打理

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品免费久久久免费| 国产精品被狂躁到高潮| 亚洲AV无码一二区三区在线播放| 国产成人精品日本亚洲| 国产品精品久久久久中文| 亚洲a成人片在线观看| 日韩东京热一区二区三区| 一区二区亚洲精品| 久久人人妻人人做人人爽| 久久久夜夜夜| 亚洲福利社| 尤物视频在线| 国产999久久高清免费观看| 国产精品久久777777| 精品久久一区| 茄子视频国产在线观看| 男女91| 五月激情综合网| 人妻精品成人| 91精品国产午夜福利| 国产午夜精品福利免费不| 91综合色| 久久精品国产精品亚洲精品| 国产91精品最新在线播放| 部精品久久久久久久久 | 日韩高清在线亚洲专区国产| 成人精品中文字幕| 96精品专区国产在线观看高清| 久久足交| 国产在线视频www色| 国产成人精品亚洲精品密奴| 国产四虎永久免费观看| 91久久偷偷做嫩草影院电| 国产人妻无套一区二区普通话对白 | 白嫩少妇丰满一区二区| 亚洲日韩av无码中文字幕美国| 五月丁香大香蕉| 欧美成人片一区二区三区| 欧日韩在线不卡视频| 日本熟妇色xxxxx日本免费看| 热久久美女精品天天吊色|