<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DiffusionOPD:復(fù)旦聯(lián)合通義萬相提出擴散模型在線策略蒸餾新范式

      0
      分享至



      擴散模型在單一任務(wù)上的強化學(xué)習(xí)已經(jīng)取得了顯著進展,例如提升文字生成質(zhì)量、增強構(gòu)圖準(zhǔn)確性,或優(yōu)化畫面美感等。但當(dāng)這些能力需要同時集成到同一個模型中時,訓(xùn)練往往會變得十分困難:不同任務(wù)之間容易產(chǎn)生相互干擾,訓(xùn)練目標(biāo)也會變得復(fù)雜而不穩(wěn)定。

      近期,來自復(fù)旦大學(xué)與阿里巴巴通義萬相的研究團隊對此提出了新的思考。他們認為,多任務(wù)強化學(xué)習(xí)不應(yīng)被視為一個統(tǒng)一優(yōu)化問題,而應(yīng)該解耦為兩個彼此獨立的過程:單任務(wù)的在線策略探索 & 多任務(wù)能力整合。

      基于這一觀點,他們提出了DiffusionOPD,為 diffusion 領(lǐng)域的 On-Policy Distillation 提供了一個統(tǒng)一視角,并建立了相應(yīng)的理論與實驗框架。

      DiffusionOPD 的核心思路,是先針對不同任務(wù)分別訓(xùn)練各自的「專家教師」模型;隨后,再通過在線策略蒸餾,將這些教師模型的能力統(tǒng)一蒸餾到同一個學(xué)生模型中,實現(xiàn)多任務(wù)能力整合。最終,一個統(tǒng)一的 student model 便能夠同時兼顧構(gòu)圖、OCR、美學(xué)等多項能力。



      • 論?標(biāo)題:DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
      • 論文地址:https://arxiv.org/abs/2605.15055
      • 項?主?:https://quanhaol.github.io/DiffusionOPD-site/
      • 代碼鏈接 https://github.com/ali-vilab/DiffusionOPD

      多任務(wù)強化學(xué)習(xí)方法

      過去常?的多任務(wù)強化學(xué)習(xí)?法主要有兩類。

      聯(lián)合多任務(wù) RL (Joint Multi-Task Optimization) :使用現(xiàn)有的 RL 算法例如 DiffusionNFT, GRPO 去聯(lián)合優(yōu)化多個任務(wù)。這種范式會撞上兩個問題: 1 獎勵沖突:不同任務(wù)的優(yōu)化?向往往存在相互干擾; 2 任務(wù)失衡:簡單任務(wù)會主導(dǎo)訓(xùn)練過程,導(dǎo)致復(fù)雜任務(wù)難以充分學(xué)習(xí)。

      級聯(lián) RL (Cascade RL):按階段依次訓(xùn)練不同任務(wù)。雖然能夠緩解任務(wù)沖突,但是訓(xùn)練流程復(fù)雜,需要分別調(diào)整各階段的超參數(shù)與訓(xùn)練策略,而且容易產(chǎn)生災(zāi)難性遺忘,后續(xù)任務(wù)訓(xùn)練的時候會削弱已有能力。



      圖 1:(a)相比所有多任務(wù)強化學(xué)習(xí)基線方法,DiffusionOPD 展現(xiàn)出顯著更快的收斂速度以及更高的性能上限。(b)在包括 GenEval、OCR 與美學(xué)在內(nèi)的多個任務(wù)領(lǐng)域中,DiffusionOPD 均優(yōu)于所有基線方法。

      DiffusionOPD: 單任務(wù)探索 + 多任務(wù)整合

      DiffusionOPD 給出的答案?脆利落:多任務(wù)強化學(xué)習(xí)不應(yīng)被視為一個統(tǒng)一優(yōu)化問題,而應(yīng)該解耦為兩個彼此獨立的過程:單任務(wù)的在線策略探索 & 多任務(wù)能力整合。



      整體訓(xùn)練過程可分為兩個階段

      • Stage 1?單任務(wù)?師獨?訓(xùn)練:針對不同任務(wù)(如 GenEval、OCR、Aesthetic 等),分別使用現(xiàn)有的 diffusion RL 方法訓(xùn)練對應(yīng)的「專家教師」模型。其中,GenEval 任務(wù)采用 DiffusionNFT,OCR 與美學(xué)任務(wù)采用 GRPO-Guard。由于每個教師僅負責(zé)單一任務(wù),因此能夠避免跨任務(wù)干擾。
      • Stage 2?在線策略蒸餾多任務(wù)能力到學(xué)?模型:隨后,從一個預(yù)訓(xùn)練擴散模型初始化統(tǒng)一的學(xué)生模型,并通過在線策略蒸餾整合多任務(wù)能力。在訓(xùn)練過程中,學(xué)生模型針對不同任務(wù),基于自身策略生成去噪軌跡;隨后,在學(xué)生生成的每個去噪狀態(tài)上,由對應(yīng)任務(wù)的教師模型提供監(jiān)督信號。因此,學(xué)生模型無需重新對所有任務(wù)進行從零探索,而是能夠直接學(xué)習(xí)各任務(wù)教師的策略與能力,從而實現(xiàn)高效的多任務(wù)能力融合。

      Diffusion 領(lǐng)域 OPD 的?標(biāo)函數(shù)推導(dǎo)

      在 LLM 中,OPD 的做法很自然:學(xué)生模型先按照自己的策略生成 token,隨后教師模型在學(xué)生訪問到的每一個 token 狀態(tài)上提供監(jiān)督。由于語言模型本身是離散 token 分布,因此可以直接對每一步的 token distribution 做 KL 蒸餾。

      但 diffusion model 不一樣。它不是離散 token 序列,而是一個連續(xù)狀態(tài)的去噪過程。

      因此作者首先把 diffusion 的去噪過程重新視作一個 continuous-state Markov chain(連續(xù)狀態(tài)馬爾可夫鏈)。在這個視角下,每一步去噪 transition 都對應(yīng)一個 Gaussian transition kernel;學(xué)生模型和教師模型分別定義自己的 transition distribution:









      接著,論文進一步推導(dǎo)發(fā)現(xiàn):由于 student 和 teacher 的transition covariance 是相同的,于是整個擴散版 OPD ?標(biāo) reverse KL,就被寫成了?個完全解析、? Monte-Carlo ?差的均值匹配損失:



      作者進一步指出這一框架同時統(tǒng)一了stochastic SDE sampler 與 deterministic ODE sampler。在 ODE 情況下目標(biāo)會退化成均值之間的 L2 匹配。



      與 PPO-style policy gradient 的比較

      另一個一非常自然的想法是:把老師當(dāng)作「過程獎勵模型」,把 KL 損失看作每一個去燥步的 dense reward 然后計算 advantage,最后套一個 PPO 的損失函數(shù)。

      DiffusionOPD 論文里嚴(yán)格證明了直接閉式 KL 與 PPO -style policy gradient在期望意義下梯度完全相等。但 PPO 的梯度里會多出一項 score-function 項,它與高斯噪聲成正比,期望為零但方差不為零。也就是說,PPO 估計天然比閉式 KL 更「吵」。





      更關(guān)鍵的是 PPO 形式離不開 logprob 與 ratio 的計算,因此它在 ODE 確定性采樣器下根本無法定義,僅僅支持 SDE sampler。

      實驗結(jié)果

      1.與多任務(wù)強化學(xué)習(xí)方法的對比

      定量效果對比:



      訓(xùn)練曲線對比:



      定性效果對比:



      圖 2:與多任務(wù)強化學(xué)習(xí)方法以及單任務(wù)教師模型的定性對比結(jié)果。每個案例分為兩行展示:第一行從左到右依次為 DiffusionOPD(本文方法)、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT;第二行從左到右依次為輸入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的生成結(jié)果。

      2.蒸餾方法消融:

      作者還做了一組很有意義的對照實驗:固定同一批專家老師,分別用 DiffusionOPD、DMD、TDM、SFT 蒸餾到同一個學(xué)生,控制變量后對比誰更適合「多任務(wù)能力整合」這個場景。

      訓(xùn)練曲線對比:



      曲線表示同樣的老師、同樣的采樣設(shè)置,DiffusionOPD 在收斂速度和上限上都明顯更好。

      定性效果對比:



      圖 3:與不同蒸餾方法的定性對比結(jié)果。從左到右依次為:DiffusionOPD(本文方法)、DMD、TDM 和 SFT。

      3.Loss 形式以及 Sampler Type 消融



      圖 6:關(guān)于損失函數(shù)形式與采樣器噪聲水平的消融實驗。當(dāng)噪聲水平設(shè)為 0 時,SDE sampler 將退化為 ODE sampler。實驗結(jié)果表明,PPO-style policy gradient 的表現(xiàn)遜于同樣 noise level 的 closed-form KL objective;此外,更低的噪聲水平能夠帶來更快的收斂速度和更高的性能上限。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      如果劉備奪得天下,首先會斬殺這3位功臣,諸葛亮是看破不說破

      如果劉備奪得天下,首先會斬殺這3位功臣,諸葛亮是看破不說破

      銘記歷史呀
      2026-05-31 00:51:26
      法網(wǎng)第8日賽程:王曦雨生死戰(zhàn)!對陣18號種子沖8強,再創(chuàng)新紀(jì)錄?

      法網(wǎng)第8日賽程:王曦雨生死戰(zhàn)!對陣18號種子沖8強,再創(chuàng)新紀(jì)錄?

      劉姚堯的文字城堡
      2026-05-31 10:02:46
      4年來首次!烏克蘭這回是真扛不住了?中國是時候考慮戰(zhàn)后的事了

      4年來首次!烏克蘭這回是真扛不住了?中國是時候考慮戰(zhàn)后的事了

      漫步獨行俠
      2026-05-30 11:26:25
      “鎩羽而歸”的“鎩”不讀“shà”,但讀對的人沒有幾個!

      “鎩羽而歸”的“鎩”不讀“shà”,但讀對的人沒有幾個!

      未央看點
      2026-05-31 12:33:20
      夏天來臨,女神駕到

      夏天來臨,女神駕到

      疾跑的小蝸牛
      2026-05-30 20:58:40
      活久見!車主要張雪書面保證,承諾車輛永不出問題,張雪怒懟發(fā)飆

      活久見!車主要張雪書面保證,承諾車輛永不出問題,張雪怒懟發(fā)飆

      火山詩話
      2026-05-29 06:54:36
      文班亞馬將簽下2.51億肥約 3.01億封頂

      文班亞馬將簽下2.51億肥約 3.01億封頂

      溫柔且自由
      2026-05-31 00:43:56
      李剛?cè)嗜毕瘺Q賽,歐冠亞洲球員紀(jì)錄仍空白

      李剛?cè)嗜毕瘺Q賽,歐冠亞洲球員紀(jì)錄仍空白

      懂球帝
      2026-05-31 12:15:07
      買奧迪的男子身份被扒,三婚三孩三個媽,關(guān)注九千女主播急刪4千

      買奧迪的男子身份被扒,三婚三孩三個媽,關(guān)注九千女主播急刪4千

      觀察鑒娛
      2026-05-30 10:25:19
      我供小叔子考上北大,他畢業(yè)后只匯款不回家,我去北京一看愣住了

      我供小叔子考上北大,他畢業(yè)后只匯款不回家,我去北京一看愣住了

      千秋文化
      2026-05-18 20:02:10
      廣廈vs上海G3前瞻:廣廈背水一戰(zhàn),魔鬼主場力爭扳回一城

      廣廈vs上海G3前瞻:廣廈背水一戰(zhàn),魔鬼主場力爭扳回一城

      橙汁的味道123
      2026-05-31 08:22:26
      主角張嘉益再度攜手兒子演新劇,15歲的他變得越來越帥氣

      主角張嘉益再度攜手兒子演新劇,15歲的他變得越來越帥氣

      草莓解說體育
      2026-05-31 12:03:01
      女大學(xué)生宿舍試穿抹胸裙走紅,曼妙身材圈粉無數(shù),露臉后卻遭惡評

      女大學(xué)生宿舍試穿抹胸裙走紅,曼妙身材圈粉無數(shù),露臉后卻遭惡評

      搗蛋窩
      2026-05-21 06:40:07
      博主耿同學(xué)果然沒閑著!他又開始舉報了,湘雅醫(yī)學(xué)院雷某首當(dāng)其沖

      博主耿同學(xué)果然沒閑著!他又開始舉報了,湘雅醫(yī)學(xué)院雷某首當(dāng)其沖

      平老師666
      2026-05-28 21:55:23
      雷霆夏季運作猜想:拿杰倫威換字母哥? 向上交易選擇小布澤爾?

      雷霆夏季運作猜想:拿杰倫威換字母哥? 向上交易選擇小布澤爾?

      仰臥撐FTUer
      2026-05-31 12:36:03
      為什么有很多人連基本的常識都沒有?網(wǎng)友:人無語的時候真的會笑

      為什么有很多人連基本的常識都沒有?網(wǎng)友:人無語的時候真的會笑

      另子維愛讀史
      2026-05-22 20:43:04
      新加坡香會取消了中國專場!李顯龍沒料到,這次中方不陪他們玩了

      新加坡香會取消了中國專場!李顯龍沒料到,這次中方不陪他們玩了

      一網(wǎng)打盡全球焦點
      2026-05-30 01:25:17
      她剛吵完架,穿著內(nèi)褲拍了一張照片,后來進了博物館

      她剛吵完架,穿著內(nèi)褲拍了一張照片,后來進了博物館

      有態(tài)度網(wǎng)友ytd2993
      2026-05-30 02:11:34
      蘇芒的維權(quán)之舉引發(fā)爭議!有博主站臺,直言“其實她也挺無奈”

      蘇芒的維權(quán)之舉引發(fā)爭議!有博主站臺,直言“其實她也挺無奈”

      火山詩話
      2026-05-29 09:43:36
      著名世界古代史學(xué)家、南開大學(xué)教授王敦書逝世

      著名世界古代史學(xué)家、南開大學(xué)教授王敦書逝世

      澎湃新聞
      2026-05-31 10:52:26
      2026-05-31 13:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13116文章數(shù) 142656關(guān)注度
      往期回顧 全部

      科技要聞

      戴爾諾基亞又回來了!AI重估老牌科技公司

      頭條要聞

      解放軍代表針對日本防衛(wèi)大臣尖銳提問 對方未正面回應(yīng)

      頭條要聞

      解放軍代表針對日本防衛(wèi)大臣尖銳提問 對方未正面回應(yīng)

      體育要聞

      阿森納用最悲壯的方式,成就了巴黎王朝

      娛樂要聞

      賈玲最新動作!侯明昊給虞書欣抬轎!

      財經(jīng)要聞

      醫(yī)學(xué)首席轉(zhuǎn)崗搞科技,A股科技股遭遇巨震

      汽車要聞

      900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

      態(tài)度原創(chuàng)

      旅游
      教育
      親子
      時尚
      游戲

      旅游要聞

      廣西北海:AI賦能開啟海島游“黃金時代”

      教育要聞

      保姆級教程:2026山東高考打印準(zhǔn)考證步驟+入口!

      親子要聞

      禁止幼兒園采購漢堡、三明治等,飯菜燒熟到食用不得超2小時!

      伊姐周六熱推:電視劇《樊籠》;電視劇《翹楚》......

      育碧經(jīng)典《雷曼》系列起源與傳奇兩款游戲重制消息曝光

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 免费不卡一区二区av| 国产一级av在线播放| 麻豆国产成人av高清在线| 99噜噜噜在线播放| 粉嫩国产白浆在线观看| 成人特黄A级毛片免费视频| 老王av| 精品国产91久久久久久亚瑟| 亚洲综合无码明星蕉在线视频 | 人人妻一区二区三区| 亚洲AV播放| 久久久久国产一级毛片高清版| 国产成人综合色就色综合| 国产熟睡乱子伦视频在线播放| 免费看欧美日韩一区二区三区| 国产在线一区二区三区播放| 广水市| 久久综合国产一区二区| 男受被做哭激烈娇喘gv视频| 无码一区二区三区久久精品| 熟女中字在线| 激情亚洲天堂| 青青草原亚洲在线视频| 制服丝袜在线云霸| 你懂的一区二区福利视频| 91网站免费| 国模欢欢炮交啪啪150| 精品欧美高清vivoesosex| 视频一区 中文字幕| 亚洲另类激情专区小说婷婷久| 91久久精品国产性色也| 国产丝袜精品在线| 欧美日韩免费做爰大片人| 国产精品一区二区国产主播| 国产一区二区三区av免费观看| 少妇太爽了在线观看免费视频 | 亚洲成人不卡| 91蜜芽尤物福利在线观看| 国产伦一区二区三区精品| 成人免费无码视频在线网站| 国产精品白浆在线观看免费|