<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      清華聯手千問重塑歸一化范式,讓 Transformer 回歸「深度」學習

      0
      分享至



      在十九世紀的暹羅王國曾誕生過這樣一對連體兄弟:他們分別擁有完整的四肢和獨立的大腦,但他們六十余年的人生被腰部相連著的一段不到十厘米的組織帶永遠綁定在了一起。他們的連體曾帶來無盡的束縛,直到他們離開暹羅,走上馬戲團的舞臺。十年間,兩兄弟以近乎合二為一的默契巡演歐美,獲得巨大成功。

      此后,人們曾用他們的故鄉之名,將這種連體現象稱作 Siamese Twins(暹羅雙胞胎)。后來,這一命名跨越了生物學的邊界。1993 年,Yann LeCun 將其引入神經網絡,創造了共享權重的 Siamese Network(孿生網絡),用于衡量輸入的相似性。

      時光流轉,在二十一世紀的今天,人工智能領域也有一對 “雙胞胎”——Pre-Norm(前置歸一化)和 Post-Norm(后置歸一化)。他們為解決大模型訓練穩定性而生,迅速成為 Transformer 架構中用于穩定信號流的關鍵范式。

      然而,歸一化帶來的訓練穩定性并非沒有代價,兩種歸一化范式之間似乎面臨著難以調和的權衡取舍。

      盡管近年來 Pre-Norm 被 GPT-3、LLaMA、DeepSeek、Qwen 等知名開源基座所采用,但多項研究共同指向了一個嚴峻事實:Pre-Norm 架構存在嚴重的 “深度失效” 問題 —— 大量深層參數雖在參與計算,卻無法拓展模型的表征能力,致使模型的 “有效深度” 嚴重受限。

      與之相對的,盡管從表征能力角度 Post-Norm 擁有更高潛力,但其訓練不穩定性在現代 Transformer 的預訓練范式下是毀滅性的。于是,Pre-Norm 與 Post-Norm 這一對為解決同一難題而誕生的雙胞胎,在各自追求 “穩定” 與 “深度” 的道路上分道揚鑣。

      難道穩定與深度,注定是一場無法調和的零和博弈嗎?

      近日,清華大學黃高 Leap Lab 團隊聯合千問 C 端團隊給出了一份全新的答案 —— SiameseNorm。



      • 論文標題:SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
      • 論文鏈接:https://arxiv.org/abs/2602.08064

      這一創新的孿生雙流架構,巧妙地解耦了優化動力學:它并未在 Pre-Norm 與 Post-Norm 之間做二選一的取舍,而是構建了兩條參數共享的平行通路。

      在這一架構下,一條流通過 Pre-Norm 機制保證訓練的穩定性,另一條流則利用 Post-Norm 特性極大地釋放模型的表征潛力。這種設計讓每個殘差塊都能接收到來自兩種范式的組合梯度,在幾乎不增加計算開銷的前提下,實現了高學習率下的穩定訓練。這一精巧的雙流協作,恰如默契的暹羅雙胞胎,將兩種范式的對立轉化為深度融合的協同優勢。



      可以看到,SiameseNorm 可以被看做 Pre-Norm 和 Post-Norm 的耦合


      1. 困境:單主干架構的先天缺陷與范式對立

      前置還是后置?這仿佛是 Transformer 世界的 “魚與熊掌”。研究者不得不在 “訓練穩定但可能平庸” 的 Pre-Norm 與 “潛力巨大卻難以駕馭” 的 Post-Norm 之間做出艱難抉擇。更令人困擾的是,任何試圖在單主干(Single-Stream)架構 —— 即在共享同一條信息主干線的經典設計中調和二者的努力,都遭遇了數學上的根本性障礙。

      痛點 1:Pre-Norm 的 “稀釋” 與 Post-Norm 的 “畸變”

      Transformer 的設計核心在于殘差連接。然而,現有的兩種主流范式都存在致命的結構性缺陷:

      • Pre-Norm (稀釋問題):為了保證梯度暢通,Pre-Norm 保留了一條干凈的恒等路徑(Identity Path)。但這導致主干流的信號幅度隨深度巨幅增長 。到了深層,層歸一化(LN)后的輸入相對于巨大的主干流來說微乎其微,導致深層網絡的貢獻被 “稀釋”,模型實際上退化成了 “淺層” 網絡。最直觀的實驗證據來自于層剪枝(Layer Pruning)實驗:將 Pre-Norm 模型 30% 的層直接移除,在零微調的情況下,其評估指標竟幾乎沒有損失。



      • Post-Norm (畸變問題):Post-Norm 強制在殘差相加后進行歸一化,保證了表示的效率,理論上限更高。但這也意味著它在每一步都在強行 “壓縮” 信號,導致梯度的傳導被破壞,容易引發梯度消失或爆炸。

      痛點 2:兩大范式的不可兼容性

      目前的混合方案(Hybrid)試圖在兩者間尋找平衡,但論文深刻地揭示了,這兩種結構在單主干設計中本質上是互斥的:

      • 梯度的 “無損傳輸” vs. 信號的 “尺度束縛”: Pre-Norm 的穩定性依賴于保留嚴格的恒等路徑(Identity Path),這意味著必須允許信號幅度在主干中自然增長,以確保梯度能夠無損傳播。相反,Post-Norm 的高效性依賴于嚴格規范(Regulation),即在主干中通過歸一化限制信號幅度,以維持特征的表達效率 。
      • 單主干的理論極限:論文指出,在共享同一條主干路徑的前提下,在數學上不可能同時做到兩件事:既保留一條完全干凈、不受阻礙的梯度通道(Pre-Norm 的要求),又同時對主干信號強制施加嚴格的幅度約束(Post-Norm 的要求)。

      因此,任何試圖在單主干結構內強行融合兩者的嘗試(如交替使用或混合歸一化),最終都只能是一種 “妥協”:它們不僅無法兼得二者之長,反而繼承了 Post-Norm 的不穩定性,導致在高學習率下訓練崩潰。要打破這個僵局,必須從結構上進行徹底的解耦(Decoupling)。

      2. 破局:SiameseNorm 的雙流解耦之道



      兩條流擁有相同的輸入,而通過不同的 LayerNorm 位置,兩條流隨后分化。

      SiameseNorm 的核心洞察在于:我們無法在單一信號流中同時滿足 “梯度傳導” 和 “表示規范” 這兩個互斥的需求。

      因此,SiameseNorm 引入了 “孿生雙流”(Siamese)機制 :

      1. Pre-Norm 流(Y 流):負責 “穩”。它保留未歸一化的狀態,確保擁有一條干凈的梯度高速公路。

      2. Post-Norm 流(X 流):負責 “強”。它時刻保持歸一化,確保特征表示不會發生坍塌或發散。

      從圖中也可以看出,把下一半遮住,它退化成 post-norm;把上一半遮住,它退化成 pre-norm。而在訓練過程中,LayerNorm 的可學習權重可以調整兩條流的大小關系。通過將支流上的 LayerNorm 調整為 0,可以退化成現有的 Pre-Norm、Post-Norm、Mix-LN 范式。

      這一架構的核心在于高效的 “參數共享” 機制:雙流路徑并非獨立存在,而是共享殘差塊(Attention/MLP)的權重。這意味著 SiameseNorm 幾乎沒有帶來參數量與計算的增長。 為降低這種耦合結構的訓練難度,架構中進一步引入了 Normalized Input(歸一化輸入) 與 Depth-wise Scaling(深度縮放),有效解決了參數共享的雙流架構帶來的優化對齊挑戰。

      3. 硬核實測:拯救 Post-Norm,數學任務暴漲 40%

      在 1.3B 參數模型、100B/350B tokens、總計算成本超過 50,000 A100 GPU 小時的預訓練實驗中,SiameseNorm 展現了驚人的統治力:

      直面公平對比的挑戰:研究者首先在不同的學習率下對比了現有各種 Pre-Norm 和 Post-Norm/HybridNorm 變體的表現,發現兩類范式的最優學習率存在顯著差異,這揭示了一個長期被忽視的問題:超參(尤其學習率)的選擇足以改變架構對比的結論。

      換言之,過往許多研究因未能適配 Pre-Norm 的最優配置,實際上人為地壓低了基線的性能天花板,從而制造了 “性能顯著提升” 的假象。因此,一個公平的比較應該對不同方法分別做超參搜索,而這在大模型預訓練中成本極高。在本篇論文中,研究者直接沿用了主流 Pre-Norm 的訓練超參。這一策略旨在證明,SiameseNorm 無需依賴特定的參數微調,即可展現出超越基線的魯棒性與性能。

      無懼高學習率:實驗表明,當學習率激進地提升至2e-3時,傳統的 Post-Norm 及 HybridNorm 架構均出現了不可逆的訓練發散(Divergence)。相比之下,SiameseNorm 展現了卓越的優化穩定性,不僅成功收斂,其訓練 Loss 更是顯著優于 Pre-Norm 基線,實現了高達 0.41 的 PPL 收益。

      進一步的消融實驗揭示了其內在的協同增益機制:在同等實驗設置下,通過 Siamese 拓撲將 “易發散” 的 HybridNorm 流與 “基線級” 的 Pre-Norm 流(PPL 10.84)進行無任何輔助機制的直接耦合,模型取得了 10.68 的更優 PPL。這一結果有力地證明,Siamese 設計并非簡單的堆砌,而是成功實現了兩大范式的互補,從而突破了單一范式的性能天花板 。

      通用基準的全面提升與推理能力的質變:SiameseNorm 不僅在通用語言理解任務上確立了領先地位,更在邏輯推理中實現了突破。在 HellaSwag、OpenBookQA、PIQA 等涵蓋常識與知識問答的廣泛基準測試中,該模型均取得了最佳成績 。

      尤為引人注目的是,在最依賴模型有效深度的算術任務(Arithmetic)上,Pre-Norm 的準確率僅為 28.1%,而 SiameseNorm 躍升至 39.6%,相對提升高達 40.9%。這一結果有力地證明,雙流架構在保持通用能力全面領先的同時,成功喚醒了 Transformer 深層網絡的潛能,顯著修復了模型的鏈式推理能力。



      實驗結果一覽,* 表示訓練 loss 出現顯著尖峰

      4. 機制探究:各流的貢獻分析

      研究人員首先通過提取兩條流中 LayerNorm 的可學習縮放參數,計算了它們對模塊輸入的相對貢獻比例。實驗結果顯示,在絕大多數殘差塊中,兩條流均保持了顯著的權重占比。這表明網絡并未出現單側退化現象,而是有效地利用了來自兩端的隱藏表征進行聯合特征提取。



      通過 Logit Lens 技術分析,研究人員發現了一個有趣的現象:在 SiameseNorm 的最終輸出中,Post-Norm 流(X 流)占據了主導地位,其對最終預測的貢獻度顯著高于 Pre-Norm 流。

      上述現象支持了一種直觀的解釋:Pre-Norm 流主要充當了 “訓練腳手架” 的角色,負責在訓練初期保障穩定性;而一旦模型步入正軌,具有更強特征表達能力的 Post-Norm 流的潛力便被釋放出來,在形成最終決策時發揮主導作用。

      結語

      長期以來,為了 “跑得通”,我們不得不接受 Pre-Norm 對有效深度的犧牲;而 Post-Norm 雖然更具表達潛力,卻又常因不穩定而難以進入大規模預訓練的主流配置。

      SiameseNorm 給出了一個優雅的答案:不再做選擇題。它以近乎不增加成本的方式,把 Pre-Norm 的優化魯棒性與 Post-Norm 的表征潛力統一在同一個框架內。對于追求更高學習率、更深網絡、更強推理能力的大模型研發者而言,SiameseNorm 指明了一條清晰的路徑:讓 Transformer 走出 “淺層困境”,回歸原始意義上的 “深度學習”。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美專家稱:中方不可怕,可怕的是他們買光刻機,卻不用來造芯片

      美專家稱:中方不可怕,可怕的是他們買光刻機,卻不用來造芯片

      黑翼天使
      2026-06-01 14:02:10
      世界第一個消失的國家,將是以色列,原因非常簡單

      世界第一個消失的國家,將是以色列,原因非常簡單

      有牙的兔紙
      2026-06-01 18:12:40
      張本智和松島輝空都得往后排!真正威脅王楚欽的,原來是18歲的他

      張本智和松島輝空都得往后排!真正威脅王楚欽的,原來是18歲的他

      郝小小看體育
      2026-06-01 23:21:10
      ?;韬钅怪皇潜揭唤牵何鳚h真正的天價黃金,大多還埋在地下

      海昏侯墓只是冰山一角:西漢真正的天價黃金,大多還埋在地下

      芊芊子吟
      2026-05-30 23:35:03
      英國博主坐中國高鐵連發十條推特破防:你們管時速三百五叫慢車?

      英國博主坐中國高鐵連發十條推特破防:你們管時速三百五叫慢車?

      李子櫥
      2026-05-23 11:35:10
      豐田給所有四驅車主一個反常識提醒:每月請開10英里

      豐田給所有四驅車主一個反常識提醒:每月請開10英里

      硅嶼手記
      2026-05-31 03:16:13
      原來這才叫有錢!存款到這個數,你已經超過90%的人!

      原來這才叫有錢!存款到這個數,你已經超過90%的人!

      混沌錄
      2026-06-01 23:24:12
      皇馬大選還沒結束,轉會市場先炸了!多位頂級球星主動示好伯納烏

      皇馬大選還沒結束,轉會市場先炸了!多位頂級球星主動示好伯納烏

      萬花筒體育球球
      2026-06-01 17:45:19
      兒童用藥警惕三大誤區!北京兒童醫院院長提醒:家長不要孩子一有感冒發燒就用抗生素

      兒童用藥警惕三大誤區!北京兒童醫院院長提醒:家長不要孩子一有感冒發燒就用抗生素

      紅星新聞
      2026-06-01 17:54:22
      與恩師穆里尼奧重聚皇馬?德布勞內吐槽孔蒂,映射阿囧足球也乏味

      與恩師穆里尼奧重聚皇馬?德布勞內吐槽孔蒂,映射阿囧足球也乏味

      穆里尼奧主義者
      2026-06-01 21:21:25
      為什么水運比陸運成本低那么多?看完網友的分享太漲知識了!

      為什么水運比陸運成本低那么多?看完網友的分享太漲知識了!

      另子維愛讀史
      2026-05-31 08:24:27
      國際足聯世界杯新規:門將倒地時,其他球員不得離場

      國際足聯世界杯新規:門將倒地時,其他球員不得離場

      懂球帝
      2026-06-01 18:48:25
      黃仁勛聯手宇樹打造1.8米參考人形機器人:英偉達提供“大腦”,宇樹造“身體”

      黃仁勛聯手宇樹打造1.8米參考人形機器人:英偉達提供“大腦”,宇樹造“身體”

      紅星新聞
      2026-06-01 16:30:28
      健身房里,千萬別亂約妹子

      健身房里,千萬別亂約妹子

      健身S叔
      2026-06-01 10:42:39
      赫森回應場地質疑:南非世界杯不全靠速度彈跳

      赫森回應場地質疑:南非世界杯不全靠速度彈跳

      賽場速報局
      2026-06-02 00:15:10
      淮海戰役慘敗后,王凌云只身脫逃,隱姓埋名潛入深山娶了個村姑

      淮海戰役慘敗后,王凌云只身脫逃,隱姓埋名潛入深山娶了個村姑

      磊子講史
      2026-05-29 16:17:30
      普京首次宣稱俄烏戰爭接近結束!承認烏克蘭更容易打擊俄本土

      普京首次宣稱俄烏戰爭接近結束!承認烏克蘭更容易打擊俄本土

      項鵬飛
      2026-05-30 16:12:33
      蕁麻,不要讀xún má,丟不起那個人!

      蕁麻,不要讀xún má,丟不起那個人!

      未央看點
      2026-05-19 08:54:23
      小米發的這個618促銷海報給我看笑了,今年618真是拉完了

      小米發的這個618促銷海報給我看笑了,今年618真是拉完了

      新浪財經
      2026-06-01 02:45:11
      WTI原油期貨漲幅擴大至8%

      WTI原油期貨漲幅擴大至8%

      澎湃新聞
      2026-06-01 23:03:40
      2026-06-02 00:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13139文章數 142658關注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設計!

      頭條要聞

      河南13人死亡車禍背后:有司機開不動了讓乘客代開車

      頭條要聞

      河南13人死亡車禍背后:有司機開不動了讓乘客代開車

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現場圖!一雙兒女當花童

      財經要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

      態度原創

      健康
      旅游
      房產
      公開課
      軍事航空

      干細胞臨床研究向患者收費?別踩坑

      旅游要聞

      逛故宮的游客注意了,坤寧宮明起檢修請繞行

      房產要聞

      100億!1371畝!海口城市更新,再爆超級項目!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      韓國最大軍工企業爆炸 已造成5人死亡

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码人妻aⅴ| 蜜桃av一卡二卡三卡| 久久国产精品99久久蜜臀| 欧美乱码一区二区三区| 少妇推油呻吟白浆啪啪成人片| 国产在线视频www色| 丰满的熟妇岳中文字幕| 激情人妻中出中文字幕一区| 欧美寡妇xxxx黑人猛交| 97cao超碰| 激情五月综合网| 亚洲AV成人无码久久精品色欲| 亚洲精品香蕉一区二区| 美女一区二区三区在线观看视频| 欧美一区二区三区久久综合| 国产美女被遭强高潮免费一视频| 欧美又粗又大AAA片| 麻豆视频在线观看| 内射少妇36p亚洲区| 国产激情一区二区三区在线| 老司机69| 无码色综合视频| 国产va欧美va在线观看| 二区中文字幕在线观看| xxxx欧美| 日韩日日骚| 自拍国内| 天堂网在线观看| 国产中文字幕精品在线| 狠狠躁天天躁中文字幕| 免费污网站在线观看| 浪荡干片网在线观看| 国产一区二区爽爽爽视频| 天天爽天天爽天天片a| 91碰在线视频| 亚洲av首页在线| 在线视频中文字幕二区| 实拍女处破www免费看| 久久99久久精品久久久久久| 蜜桃无码一区二区三区| 亚洲精品一区二区妖精|