<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      港中文新優化器Pion:在等譜流形上更新大模型

      0
      分享至



      本文作者施柯煊和李瀚軒是香港中文大學計算機科學與工程系博士生,邱澤鉅是德國馬克斯普朗克研究所博士生,溫研東是西湖大學助理教授,Simon Buchholz是德國馬克斯普朗克研究所研究員,劉威楊是香港中文大學計算機科學與工程系助理教授。

      當大語言模型不斷邁向百億乃至千億參數規模時,人們的核心關注已不再僅僅是 “如何更快收斂”,而是逐漸轉向兩個更加本質的問題:其一,是如何在訓練過程中維持穩定性;其二,是如何實現從小模型到大模型的有效超參數遷移

      具體而言,前者主要表現為訓練過程中的一系列數值與動力學失穩現象,例如注意力 logits 持續增大、激活輸出范數逐步漂移、深層網絡中損失尖峰頻繁出現,甚至最終導致數值溢出與訓練崩潰。后者則依賴于 μP(Maximal Update Parameterization)等尺度化理論,其核心思想是在寬度變化的條件下,通過對參數矩陣與更新尺度進行系統性約束,使不同規模模型之間的超參數具有可遷移性。

      圍繞這兩個問題,當前主流的工程應對方式主要集中在 “訓練穩定性補丁” 和 “尺度控制框架” 兩個方向。一類方法通過梯度裁剪、激活截斷、學習率衰減等手段,直接抑制訓練過程中的數值爆炸;另一類方法則借助歸一化或譜約束等機制,對參數或更新的尺度進行顯式控制,從而緩解訓練過程中的漂移問題。這些方法通過抑制不穩定現象的外在表現,取得了一定的成效,但是并非從優化動力學層面約束其根源

      近期,研究團隊提出了一類基于等譜流形(iso-spectral manifold)的優化器 Pion。其核心思路是在參數矩陣對應的等譜流形上進行優化,從而在根源上規避動力學失穩。這一視角為長程訓練中的尺度漂移與穩定性問題提供了一種從 “幾何約束優化動力學” 出發的替代思路。



      • 論文標題:Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation
      • 論文鏈接:https://arxiv.org/pdf/2605.12492
      • 代碼鏈接:https://github.com/Sphere-AI-Lab/pion

      加法更新的困境

      追本溯源,無論是 μP 尺度的失效亦或是是訓練頻頻失穩,傳統優化器的加法更新范式是主要原因之一。



      隨著訓練的不斷進行,無約束的加法累積同時改變了參數的長度與方向,逐漸破壞了參數矩陣的譜幾何。具體表現為奇異值譜范數被持續放大,不同特征方向的尺度越來越失衡,整體矩陣范數不斷漂移。

      這些底層的幾何變化進一步放大了網絡中的激活值,摧毀了 μP 的前向尺度前提。換句話說,許多訓練失穩與參數化崩潰現象,并不僅僅來自梯度太大,而是因為參數矩陣本身的結構在長期更新過程中逐漸失控。

      從譜保持重新理解穩定訓練



      • spectral norm 不會被無約束放大;
      • 參數矩陣整體范數更加穩定;
      • 特征空間可以持續演化,但矩陣尺度不會失控。

      但與此同時,POET 仍然依賴重參數化訓練框架,需要額外維護兩個可訓練正交矩陣,并固定原始權重矩陣。這不僅給訓練系統兼容性與跨架構適配帶來額外復雜度,也要求更加復雜的一階動量設計。

      Pion:不做重參數化,直接把 “保譜” 寫進優化器

      基于這一觀察,我們進一步提出了 Pion(POET-induced Optimizer with No Reparameterization)。與 POET 不同,Pion 不再依賴顯式重參數化,而是直接將 “譜保持更新” 寫進優化器本身。





      這里的兩個單位矩陣,本質上可以被視為 “零旋轉” 的正交變換。





      其中,兩側更新都由 Lie algebra 中的斜對稱矩陣生成,并通過矩陣指數映射回正交群。

      這一更新方式帶來了一個非常重要的性質:Pion 不再直接 “拉伸” 權重矩陣,而是在特征空間中對其進行旋轉

      由于左右兩側始終是正交變換,Pion 會嚴格保持權重矩陣的奇異值不變。換句話說,訓練過程中:

      • spectral norm 不會被無約束放大;
      • Frobenius norm 保持穩定;
      • 權重的行空間與列空間持續演化,但整體尺度不會失控。

      從幾何視角來看,傳統優化器的更新往往同時混合了:

      • 參數長度(magnitude)的變化;
      • 參數方向(direction)的變化。

      而 Pion 則將更新完全轉化為 “旋轉運動”。因此,Pion 的更新范數不再對應參數縮放,而直接刻畫了特征空間中的旋轉強度。這意味著:模型不是在無約束地放大參數,而是在穩定地旋轉特征空間。

      基于上述規則,我們進一步對加速更新的技術進行了探索,詳情見論文鏈接。我們將最后的得到的 Pion 算法總結成偽代碼(圖 1):



      圖 1:Pion 優化器算法流程。

      Pion 與 μP:譜保持優化器實現尺度遷移

      μP(Maximal Update Parametrization)具體來說要求:

      • 權重矩陣的 spectral norm 滿足固定尺度規律;
      • 參數更新量的 spectral norm 也滿足對應尺度規律。

      過去已有的 μP-compatible 優化器,大多建立在 Muon 路線之上。原因在于:Muon 的更新天然容易滿足 “更新譜條件”,因此 prior work 主要關注如何進一步修正它的權重尺度。而 Pion 剛好相反。由于 Pion 的更新始終保持權重譜結構穩定,因此:它天然滿足 μP 對 權重矩陣的 spectral norm 的尺度規律。于是問題變成:如何讓 Pion 的更新幅度也滿足 μP 的 scaling law。

      為此,我們進一步設計了 μP-compatible 的 Pion 版本,對更新中的 Lie algebra 因子進行譜歸一化控制。我們分別在 LLaMA 架構和 Qwen 架構,對不同模型寬度下驗證 learning rate transferability。如圖 2 所示,Pion 的最優學習率幾乎可以跨模型尺度直接遷移



      圖 2:Pion 與 μP。

      Pion 譜保持優化器實現穩定高效訓練

      我們從預訓練、后訓練兩個方面觀察 Pion 的訓練的穩定性。對于預訓練,除了常規的結構的訓練,我們額外增加了壓力測試:完全去除歸一化層以及超深層網絡,來測試 Pion 在極端情況下的穩定性。 對于后訓練,我們采用 SFT 和 RLVR 兩個常規 Pipeline 進行測試。

      穩定預訓練



      圖 3: 穩定性指標

      我們在 LLaMA-like 1.3B model 上進行預訓練。除了驗證損失之外,我們進一步監控了多項訓練穩定性指標(如圖 3 所示)。其中,SwiGLU 激活范數以及最大 attention logit,已經被廣泛認為是大規模預訓練中的關鍵穩定性指標。如圖所示: AdamW 的 attention logit 持續增長,同時激活范數迅速放大; Muon 雖然顯著抑制了 attention logit 的增長,但其激活值與 down-projection 相關范數仍在整個訓練過程中持續上升; 相比之下,Pion 對所有監控指標都保持了近乎平坦且穩定的演化軌跡。 這種截然不同的訓練動態,來自于 Pion 有效的譜保持特性,如圖 4 所示。



      圖 4:譜的保持。

      得益于穩定訓練以及更均勻的譜,Pion 在 zero-shot 的測試任務上,取得了更好的泛化性(圖 5):



      圖 5: Benchmark 性能。

      Normalization-free 訓練.

      為了進一步對 Pion 的訓練穩定性進行壓力測試,我們移除了一個 60M LLaMA-like 模型中的所有 normalization 層。之所以采用這一設置,是因為 normalization 長期以來都被認為是控制激活尺度、穩定梯度反向傳播的關鍵機制。因此,在缺少 normalization 的情況下,訓練會變得極其不穩定,也能夠更直接地檢驗:優化器本身,是否具備足夠的尺度控制能力。



      圖 6: Normlaization-free 訓練曲線

      實驗結果非常明顯,如圖 6 所示。在這一設置下,AdamW 與 Muon 雖然能夠在訓練初期取得一定進展,但很快便由于梯度溢出而訓練崩潰,并最終產生 NaN。相比之下,Pion 在完整的 9.6B token 訓練過程中始終保持穩定,并最終成功收斂。這一結果表明:譜保持優化在一定程度上能夠替代架構層面的尺度控制機制,為模型訓練提供一種來自優化器本身的穩定性來源

      超深層網絡結構

      為了進一步對 Pion 的穩定性進行壓力測試,我們在極端深度的 LLM 結構上開展實驗。 深層網絡通常被認為是優化穩定性的 “放大鏡”,容易引發嚴重的訓練問題,例如梯度消失以及表示坍塌等現象。在該實驗中,我們將一個 60M 規模的 LLaMA 基線模型從 8 層逐步擴展至 200 層,并在 50B tokens 的 C4 子集上進行訓練。如圖 7 所示,為了更清晰地展示訓練動態,我們通過局部 loss 軌跡的標準差均值來衡量訓練穩定性,其對應的陰影面積可視化了波動程度。



      圖 7: 深層網絡訓練

      實驗結果顯示:AdamW 出現最明顯的 loss spike,整體穩定性最差;Muon 在訓練過程中仍然存在持續的波動累積;Pion 則在整個訓練過程中保持最平滑的 loss 軌跡。對應的標準差統計結果則為:AdamW:0.0931; Muon:0.0927; Pion:0.0892。這表明在極端深度設置下,Pion 表現出最優的訓練穩定性,同時仍然能夠在中期階段實現更快的 loss 下降。

      監督微調

      在監督微調(SFT)階段,一個長期存在的問題是:模型在學習新任務時,很容易遺忘原有能力

      這本質上是一個 stability-plasticity tradeoff:

      • plasticity 太強 → 學得快,但容易 catastrophic forgetting;
      • stability 太強 → 保留舊能力,但新任務適應困難。

      我們在 Qwen2.5-1.5B 和 Llama3.2-3B 兩個基礎模型上進行了全參數微調實驗,并覆蓋:數學推理,代碼生成兩類典型任務。如圖 8 所示,Pion 在多個維度都展現出了更好的平衡能力。尤其是在代碼生成任務中,Pion 同時取得了最高的 ID(in-domain)與 OOD(out-of-domain)表現;數學微調任務中,Pion 也在保持接近最優 ID 性能的同時,更有效地維持了 OOD 泛化。



      圖 8: Pion 應用于監督微調。

      表明:Pion 不僅能更好學習目標任務,同時還能更穩定地保留原始模型能力。換句話說:Pion 的譜保持更新,不僅穩定了訓練過程,也穩定了模型知識本身。相比于傳統優化器頻繁改變參數尺度,Pion 更傾向于在已有表示空間中進行 “結構化旋轉”,因此不容易破壞預訓練階段已經形成的特征結構。

      Reinforcement Learning with Verifiable Reward



      圖 9: Pion 應用于 RLVR。

      我們進一步測試 Pion 在 RLVR(Reinforcement Learning with Verifiable Reward)中的表現。RL 往往是大模型訓練中最不穩定的階段之一,具體來說,reward variance 大;optimization noise 強;容易出現模式崩塌與訓練震蕩。最近的一些研究發現,一個非常有意思的現象是:RL 階段的參數更新,其實往往天然傾向于保留預訓練權重的譜結構。這意味著:強化學習可能本身就更偏向 “結構保持型更新”。而這與 Pion 的更新幾何幾乎天然一致。因此,我們進一步在:Qwen3-1.7B, DeepSeek-R1-Distill-Qwen-1.5B 上進行了 RLVR 實驗,并采用 GRPO 訓練框架進行數學推理強化學習。如圖 9 所示,Pion 在所有 RL 設置下都取得了最佳平均表現。與此同時,驗證集 accuracy 曲線(圖 10)也顯示:Pion 收斂更快;訓練更穩定;后期性能波動更小。



      圖 10: Pion 在 RLVR 任務上的訓練曲線。

      上述結果表明:譜保持不僅適用于預訓練,也可能是一種更適合 RL 的優化歸納偏置(inductive bias)

      結論:從 “收斂優化器” 到 “穩定優化器”

      過去很長時間里,人們默認優化器的職責只有一個:盡快降低 loss。 但隨著大模型訓練規模不斷擴大,“穩定性” 本身,正在變成優化器最核心的能力之一。而 Pion 提供了一個不同于傳統路線的方向:它不依賴大量訓練補丁,而是通過參數更新本身的幾何約束,從源頭抑制譜結構失控。因此,Pion 的意義可能不僅僅是 “一個更穩定的優化器”,更預示著:大模型優化器的下一階段,也許不只是更快下降,而是更可控、更結構化、更長期穩定

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為什么領導都喜歡上班?網友曝光領導抽屜都是性用品:絲襪、套套

      為什么領導都喜歡上班?網友曝光領導抽屜都是性用品:絲襪、套套

      黯泉
      2026-06-01 15:33:05
      能否止住下滑頹勢?鄭欽文下周迎草地賽季首秀,195積分需要捍衛

      能否止住下滑頹勢?鄭欽文下周迎草地賽季首秀,195積分需要捍衛

      全景體育V
      2026-06-01 19:19:13
      在國安局退休后,發現鄰居每天準時曬被子,被子顏色是在傳遞機密

      在國安局退休后,發現鄰居每天準時曬被子,被子顏色是在傳遞機密

      千秋文化
      2026-05-28 19:38:07
      江西“氣功大師”王林:落網之后,情婦為了救他,竟包養辦案民警

      江西“氣功大師”王林:落網之后,情婦為了救他,竟包養辦案民警

      做一個合格的吃瓜群眾
      2026-06-01 19:21:35
      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      夜深愛雜談
      2026-06-01 19:22:01
      廣州白云機場一航班落地滑行58分鐘?航旅縱橫顯示情況屬實,機場客服稱將調查

      廣州白云機場一航班落地滑行58分鐘?航旅縱橫顯示情況屬實,機場客服稱將調查

      上游新聞
      2026-06-01 18:27:16
      6月1日發布!華為9款新機官宣:10300mAh+20GB+1TB!

      6月1日發布!華為9款新機官宣:10300mAh+20GB+1TB!

      科技堡壘
      2026-06-01 09:25:33
      同學聚會,發現一個扎心現象,年過40歲的女同學,1/3沒工作,1/3做著低薪沒前途的工作...

      同學聚會,發現一個扎心現象,年過40歲的女同學,1/3沒工作,1/3做著低薪沒前途的工作...

      背包旅行
      2026-06-01 17:39:34
      索菲亞教堂棚頂被掀飛?附近居民稱“一切正常,有很多游客”,當地回應:暫未接到報告

      索菲亞教堂棚頂被掀飛?附近居民稱“一切正常,有很多游客”,當地回應:暫未接到報告

      瀟湘晨報
      2026-06-01 12:57:26
      上海政法學院再通報女廁發現攝像頭:決定開除涉事學生學籍

      上海政法學院再通報女廁發現攝像頭:決定開除涉事學生學籍

      界面新聞
      2026-06-01 15:05:36
      7月1日起!投資美股不報備,就要沒收違法所得...

      7月1日起!投資美股不報備,就要沒收違法所得...

      瑪麗姬絲
      2026-06-01 15:29:35
      黃仁勛聯手宇樹打造1.8米參考人形機器人:英偉達提供“大腦”,宇樹造“身體”

      黃仁勛聯手宇樹打造1.8米參考人形機器人:英偉達提供“大腦”,宇樹造“身體”

      紅星新聞
      2026-06-01 16:30:28
      燃氣灶致癌,再添實錘!斯坦福大學:即使關著爐子,也能釋放一級致癌物,患癌風險飆升;僅烹飪1小時,NO?就超標,每年致1.9萬人死亡

      燃氣灶致癌,再添實錘!斯坦福大學:即使關著爐子,也能釋放一級致癌物,患癌風險飆升;僅烹飪1小時,NO?就超標,每年致1.9萬人死亡

      梅斯醫學
      2026-05-31 07:55:29
      1100萬清洗!前巴薩10號離隊:巔峰身價8000萬 梅西接班人

      1100萬清洗!前巴薩10號離隊:巔峰身價8000萬 梅西接班人

      葉青足球世界
      2026-06-01 20:06:16
      寶媽稱網購童鞋收到空鞋盒,申請退款被拒后再買同款根據重量差異舉證,獲平臺支持退款

      寶媽稱網購童鞋收到空鞋盒,申請退款被拒后再買同款根據重量差異舉證,獲平臺支持退款

      瀟湘晨報
      2026-06-01 12:57:26
      基輔議會大廳內,298張贊成票落下,他拿到了歐盟900億歐元的貸款

      基輔議會大廳內,298張贊成票落下,他拿到了歐盟900億歐元的貸款

      空想之喵
      2026-06-01 03:39:32
      兩院院士、著名飛機空氣動力學家顧誦芬逝世,享年96歲

      兩院院士、著名飛機空氣動力學家顧誦芬逝世,享年96歲

      極目新聞
      2026-06-01 15:38:09
      華為“韜定律”又讓國內的贏學家們自嗨起來

      華為“韜定律”又讓國內的贏學家們自嗨起來

      廖保平
      2026-06-01 12:30:02
      世界首富押注的火箭發動機:折騰了60年,終于變成了流水線產品

      世界首富押注的火箭發動機:折騰了60年,終于變成了流水線產品

      平流層散步者
      2026-05-27 08:04:47
      浙江國企“塌方”  高管批量投案

      浙江國企“塌方” 高管批量投案

      經濟那道理
      2026-06-01 15:55:26
      2026-06-01 21:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13137文章數 142658關注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設計!

      頭條要聞

      媒體:鄭麗文"兩手空空"訪美 被指有望見到特朗普

      頭條要聞

      媒體:鄭麗文"兩手空空"訪美 被指有望見到特朗普

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現場圖!一雙兒女當花童

      財經要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

      態度原創

      本地
      手機
      旅游
      公開課
      軍事航空

      本地新聞

      用剪紙的方式,打開江蘇揚州

      手機要聞

      旅行拍照手機評測:Reno16如何成為兼顧續航與影像的性價比神機?

      旅游要聞

      逛故宮的游客注意了,坤寧宮明起檢修請繞行

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      韓國最大軍工企業爆炸 已造成5人死亡

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 秋霞午夜免费国产| 少妇人妻偷人精品系列| 欧美日韩亚洲国产天堂A| 中文无码制服丝袜人妻AV| 欧美丰满熟妇xxxx性| 中文熟妇人妻av在线| 日本一区二区在线播放| 色婷婷日日躁夜夜躁| 最近2019中文字幕大全第二页| 亚洲男人的天堂av手机在线观看 | 蜜桃久久精品成人无码av| 国产无套流白浆视频| 国产丰满乱子伦无码专区| 国产精品小粉嫩在线观看| 伊人五月综合| 人妻小说区图片区| 国产免费AV片在线观看| 影音先锋2020色资源网| 国产一区日韩二区欧美三区| 国产精品久久久久高潮| 性福利导航| 在线涩涩免费观看国产精品| 国产av一区二区亚洲精品| 一区二区特级毛片| 中文在线成人| 女同在线观看免费网站| 呻吟国产av久久一区二区| 亚洲中文字幕无码中字| 女同另类激情在线三区 | 国产精品va无码一区二区| 精品尤物TV福利院在线网站| 亚洲国产成人极品综合| 蜜桃臀无码内射一区二区三区| 国产熟女一区二区三区四区五区| 国产无套内射又大又猛又粗又爽| 熟女精品| 色欲天天综| 欧美z0zo人禽交欧美人禽交| 国产精品久久久久久久久电影网| 中文字幕无码不卡一区二区三区| 国产日韩精品一区二区在线观看播放|