<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      告別多獎(jiǎng)勵(lì)蹺蹺板:Flow-OPD將多教師OPD帶入圖像生成

      0
      分享至



      本文由中國科學(xué)技術(shù)大學(xué)、加州大學(xué)洛杉磯分校、香港中文大學(xué)和小紅書等機(jī)構(gòu)合作完成。共同作者第一為中國科學(xué)技術(shù)大學(xué)一年級(jí)研究生方鎮(zhèn),他的研究方向?yàn)橥ㄓ枚嗄B(tài)智能體。

      今年以來,在線策略蒸餾 OPD(On-Policy Distillation)已經(jīng)逐漸成為大廠 LLM 后訓(xùn)練中的重要組件,例如DeepSeek-V4,GLM5就使用了多教師 OPD 來整合不同領(lǐng)域?qū)<夷P偷哪芰Γ啾然旌溪?jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)收斂更快、效果更好。

      那么這樣一種高效直觀的多教師 OPD 策略是否能夠應(yīng)用于圖像生成任務(wù)呢?如果可行,這將是構(gòu)建涵蓋多種生成內(nèi)容、生成質(zhì)量良好、風(fēng)格多樣的超強(qiáng)通才文生圖模型的一次有益嘗試!

      最近,來自 USTC、UCLA、CUHK 和小紅書的研究團(tuán)隊(duì)開創(chuàng)性地提出了Flow-OPD,這是首個(gè)將 OPD 引入流匹配模型的統(tǒng)一多任務(wù)后訓(xùn)練框架,為構(gòu)建可靠、多維度泛化的視覺基礎(chǔ)模型提供了高度可擴(kuò)展的對(duì)齊新范式。





      • 論文標(biāo)題:Flow-OPD: On-Policy Distillation for Flow Matching Models
      • 論文鏈接
      • https://arxiv.org/abs/2605.08063
      • 項(xiàng)目主頁
      • https://costaliya.github.io/Flow-OPD/
      • 代碼地址
      • https://github.com/CostaliyA/Flow-OPD

      一、核心問題:GRPO 在多任務(wù)中的系統(tǒng)性失效



      在流匹配模型的后訓(xùn)練對(duì)齊中,核心問題在于模型無法同時(shí)兼顧多個(gè)異構(gòu)的對(duì)齊任務(wù),陷入了嚴(yán)重的「蹺蹺板效應(yīng)」。

      具體表現(xiàn)為:

      單獎(jiǎng)勵(lì) GRPO雖然能在孤立的單目標(biāo)任務(wù)中讓模型逼近性能天花板,但會(huì)導(dǎo)致非目標(biāo)領(lǐng)域的對(duì)齊能力發(fā)生嚴(yán)重退化,引發(fā)「獎(jiǎng)勵(lì)黑客」行為,如上圖所示,使用 GenEval 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的模型無法成功完成文字渲染和風(fēng)格化生成任務(wù);

      混合獎(jiǎng)勵(lì) GRPO試圖通過簡單堆疊或混合多個(gè)標(biāo)量獎(jiǎng)勵(lì)函數(shù)來進(jìn)行聯(lián)合優(yōu)化,卻根本無法建立穩(wěn)定的認(rèn)知基礎(chǔ),每當(dāng)引入新的獎(jiǎng)勵(lì)信號(hào)時(shí),就會(huì)引發(fā)此前已習(xí)得能力的災(zāi)難性遺忘與參數(shù)吞噬。如下表所示,每當(dāng)有新的獎(jiǎng)勵(lì)模型加入訓(xùn)練,模型進(jìn)行基礎(chǔ)視覺生成和文本渲染的能力都會(huì)下降。



      無論是 GRPO 單獨(dú)訓(xùn)練還是混合訓(xùn)練,其核心癥結(jié)在于稀疏的標(biāo)量獎(jiǎng)勵(lì)無法有效調(diào)和異構(gòu)任務(wù)之間的梯度沖突,導(dǎo)致單獨(dú)訓(xùn)練時(shí)因缺乏多維監(jiān)督而引發(fā)非目標(biāo)能力的嚴(yán)重降級(jí),而混合訓(xùn)練則會(huì)因異構(gòu)梯度間的參數(shù)內(nèi)耗觸發(fā)對(duì)先前能力的災(zāi)難性遺忘。

      那么,是否存在一種訓(xùn)練方式,在每一種任務(wù)上都能達(dá)到對(duì)應(yīng)的能力上界呢?是否可以通過一種方式,將多個(gè)單獎(jiǎng)勵(lì)訓(xùn)練的「教師模型」壓縮進(jìn)一個(gè)「學(xué)生」,從而構(gòu)建通才流匹配文生圖模型呢?

      二、Flow-OPD:首個(gè)流匹配模型的 OPD 合版后訓(xùn)練框架

      對(duì)于相似的多任務(wù)優(yōu)化難題,DeepSeek-V4 和 GLM5 等模型成功啟發(fā)了我們進(jìn)行一種另外的嘗試:多教師 OPD 合版。通過學(xué)生模型的在線 rollout 和教師模型的稠密獎(jiǎng)勵(lì)巧妙解決了多任務(wù)的梯度沖突。



      Flow-OPD 的訓(xùn)練框架如上圖所示:

      • 首先通過單獎(jiǎng)勵(lì) GRPO 培養(yǎng)對(duì)應(yīng)任務(wù)的教師;

      • 對(duì)學(xué)生模型進(jìn)行冷啟動(dòng),這里包含兩種冷啟動(dòng)策略,分別是監(jiān)督微調(diào) SFT 和模型融合。冷啟動(dòng)賦予了較高的初始表現(xiàn),可以促使學(xué)生模仿教師的生成模式,從而快速收斂;

      • 多教師 OPD 蒸餾:Flow-OPD 的核心思想是讓學(xué)生模型通過「實(shí)踐」暴露自身的錯(cuò)誤與偏差,并在自己生成的圖像路徑上,實(shí)時(shí)接受不同專家教師的精準(zhǔn)指引。訓(xùn)練時(shí),學(xué)生模型通過帶有隨機(jī)性的動(dòng)態(tài)探索,自主生成圖像的演變軌跡。每走到一個(gè)具體的生成步驟,系統(tǒng)就會(huì)根據(jù)當(dāng)前的文字指令,自動(dòng)將任務(wù)派發(fā)給對(duì)應(yīng)的領(lǐng)域?qū)<遥ㄈ缥淖咒秩緦<一蚧A(chǔ)視覺元素生成專家)。這種「術(shù)業(yè)有專攻」的硬路由機(jī)制,讓特定專家只針對(duì)自身擅長的任務(wù)提供黃金標(biāo)準(zhǔn)指導(dǎo)。這里我們選擇教師和學(xué)生速度場(chǎng)的均方誤差對(duì)標(biāo) LLM OPD 中的 KL 散度。更進(jìn)一步地,我們選擇使用負(fù)均方誤差替代標(biāo)準(zhǔn) GRPO 中的獎(jiǎng)勵(lì),無需組內(nèi)歸一化,使用 PPO-Style 進(jìn)行參數(shù)更新;

      • 激進(jìn)地優(yōu)化功能性目標(biāo)往往會(huì)誘發(fā)嚴(yán)重的背景模式坍塌和語義冗余。為此,F(xiàn)low-OPD 引入流形錨點(diǎn)正則化(Manifold Anchor Regularization, MAR)。該機(jī)制維護(hù)了一個(gè)凍結(jié)的美學(xué)教師模型(Aesthetic Teacher),提供高保真的 KL 正則化,從而保證了學(xué)生的生成質(zhì)量和多樣性。

      三、實(shí)驗(yàn)效果


      為了驗(yàn)證 Flow-OPD 的性能,我們使用 stable-diffusion-3.5-medium(SD-3.5-M)作為基線模型,遵循 Flow-GRPO 的數(shù)據(jù)和訓(xùn)練方式進(jìn)行教師訓(xùn)練。

      多任務(wù)性能





      多任務(wù)訓(xùn)練常面臨「顧此失彼」的瓶頸,而新框架 Flow-OPD 實(shí)現(xiàn)了突破。它在文本渲染和圖像質(zhì)量等多個(gè)維度全面看齊并超越了各領(lǐng)域的專家模型,有效解決了多任務(wù)聯(lián)合訓(xùn)練中的能力衰退與優(yōu)化難題。

      更重要的是,在多位導(dǎo)師模型集體失效的極端邊緣場(chǎng)景下,F(xiàn)low-OPD 表現(xiàn)出「青出于藍(lán)」的「出師」現(xiàn)象(如上圖的生成橙色剪刀)。這種通過多專家協(xié)同監(jiān)督的方式,成功消除了單一模型的領(lǐng)域偏見,促使學(xué)生模型在潛空間中融會(huì)貫通,最終探索出超越任意單一導(dǎo)師的更優(yōu)解法。

      冷啟動(dòng)消融



      冷啟動(dòng)初始化為后續(xù)訓(xùn)練快速奠定了堅(jiān)實(shí)基礎(chǔ)。在現(xiàn)有方案中,監(jiān)督微調(diào)(SFT)擴(kuò)展性強(qiáng),具備吸收異構(gòu)導(dǎo)師能力冷啟動(dòng)的潛力;模型融合(Model Merging)則能在零訓(xùn)練成本下,完美對(duì)齊同構(gòu)導(dǎo)師的各項(xiàng)功能。

      MAR 圖像質(zhì)量正則化





      傳統(tǒng)的 GRPO 優(yōu)化由于獎(jiǎng)勵(lì)粒度過粗,容易導(dǎo)致模型陷入背景模式崩塌或語義冗余,而單純依賴導(dǎo)師模型又常面臨指令遵循度不足的困境。 MAR 成功突破了這一瓶頸。它將優(yōu)化過程錨定在高保真流形上,對(duì)于所有數(shù)據(jù)全流程監(jiān)督,在保持結(jié)構(gòu)多樣性的同時(shí),實(shí)現(xiàn)了精準(zhǔn)的語義遵循。表格的定量結(jié)果進(jìn)一步證實(shí),MAR 引入的全局?jǐn)?shù)據(jù)集監(jiān)督,在圖像視覺質(zhì)量與人類偏好對(duì)齊上均取得了顯著突破。

      四、為什么 Flow-OPD 可以完成多任務(wù)聯(lián)合優(yōu)化?


      Flow-OPD 成功的核心在于在線多專家密集監(jiān)督機(jī)制。傳統(tǒng)方法僅依賴稀疏的標(biāo)量獎(jiǎng)勵(lì),極易引發(fā)任務(wù)間的梯度干擾。而 Flow-OPD 在在線訓(xùn)練過程中,將優(yōu)化實(shí)時(shí)錨定在高保真流形上,利用多位專家的密集信號(hào)進(jìn)行動(dòng)態(tài)、協(xié)同的引導(dǎo)。這種在線互動(dòng)不僅化解了梯度沖突、消除了單一偏見,更讓學(xué)生模型在潛空間中融會(huì)貫通,高效實(shí)現(xiàn)了多任務(wù)的實(shí)時(shí)聯(lián)合優(yōu)化與超越。

      五、未來的研究方向


      未來,F(xiàn)low-OPD 框架還可向多個(gè)方向拓展:

      • 異構(gòu)導(dǎo)師的動(dòng)態(tài)調(diào)度:探索如何動(dòng)態(tài)引入不同架構(gòu)、不同模態(tài)(如純文本或具身模型)的異構(gòu)導(dǎo)師,并實(shí)現(xiàn)自動(dòng)化的在線權(quán)重分配。

      • 跨流形軌跡的自發(fā)演化:深入探索「超越導(dǎo)師」現(xiàn)象,研究如何讓學(xué)生模型在潛空間中自發(fā)創(chuàng)造出導(dǎo)師從未涉足過的全新最優(yōu)生成軌跡。

      • 輕量化在線蒸餾算法:開發(fā)動(dòng)態(tài)專家激活(MoE 化導(dǎo)師集群)或參數(shù)共享機(jī)制,大幅降低多專家在線訓(xùn)練時(shí)的算力和顯存開銷。

      Flow-OPD 作為首次將在線策略蒸餾引入流匹配擴(kuò)散模型多任務(wù)訓(xùn)練的創(chuàng)新嘗試,成功打破了傳統(tǒng)聯(lián)合優(yōu)化的瓶頸。它不僅實(shí)現(xiàn)了多能力的完美融合,更展現(xiàn)出「青出于藍(lán)」的超越潛力。未來,這一全新范式有望在具身智能、跨模態(tài)協(xié)同等更廣泛的領(lǐng)域發(fā)酵,為構(gòu)建真正通用、全能的下一代生成式大模型開辟全新的演進(jìn)路徑。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      直到回國了我才敢說:印度,是我去過的所有國家中,最被看輕的!

      直到回國了我才敢說:印度,是我去過的所有國家中,最被看輕的!

      凡人侃史
      2026-06-01 16:55:35
      關(guān)停三年后天涯社區(qū)“重生” 1.3億人的青春記憶真能回來嗎?|封面頭條

      關(guān)停三年后天涯社區(qū)“重生” 1.3億人的青春記憶真能回來嗎?|封面頭條

      封面新聞
      2026-06-01 15:14:05
      《狂飆》高啟強(qiáng)原型:從長沙菜場(chǎng)魚販到百億黑老大,結(jié)局如何?

      《狂飆》高啟強(qiáng)原型:從長沙菜場(chǎng)魚販到百億黑老大,結(jié)局如何?

      南冥那只貓
      2026-05-18 09:59:21
      法拉利給教皇看新車 連教宗都激動(dòng)不起來 市值還蒸發(fā)30億

      法拉利給教皇看新車 連教宗都激動(dòng)不起來 市值還蒸發(fā)30億

      籃壇第一線
      2026-05-30 00:29:04
      不是送馬英九進(jìn)大牢,是鄭麗文讓藍(lán)綠對(duì)決換劇本,臺(tái)商集體倒向鄭

      不是送馬英九進(jìn)大牢,是鄭麗文讓藍(lán)綠對(duì)決換劇本,臺(tái)商集體倒向鄭

      吃貨的分享
      2026-06-01 18:18:11
      被美"遣返"的美籍華人,如今沒有國籍,中國做法值得全世界學(xué)習(xí)

      被美"遣返"的美籍華人,如今沒有國籍,中國做法值得全世界學(xué)習(xí)

      福建睿平
      2026-06-01 13:10:54
      演員張凌赫工作室道歉:全額補(bǔ)償交通住宿費(fèi)!此前粉絲擠爆玻璃門,數(shù)人被擦傷送醫(yī),線下活動(dòng)緊急取消

      演員張凌赫工作室道歉:全額補(bǔ)償交通住宿費(fèi)!此前粉絲擠爆玻璃門,數(shù)人被擦傷送醫(yī),線下活動(dòng)緊急取消

      新浪財(cái)經(jīng)
      2026-05-31 21:09:23
      志愿軍七個(gè)副司令,六個(gè)都風(fēng)光無限,唯獨(dú)他被冷落到底

      志愿軍七個(gè)副司令,六個(gè)都風(fēng)光無限,唯獨(dú)他被冷落到底

      歷史圖鑒
      2026-05-27 22:46:08
      空調(diào)開到27度,一晚上會(huì)耗多少電?終于有師傅說出實(shí)話!

      空調(diào)開到27度,一晚上會(huì)耗多少電?終于有師傅說出實(shí)話!

      小柱解說游戲
      2026-06-01 10:00:20
      美專家稱:中方不可怕,可怕的是他們買光刻機(jī),卻不用來造芯片

      美專家稱:中方不可怕,可怕的是他們買光刻機(jī),卻不用來造芯片

      史鹷的生活科普
      2026-06-01 13:03:34
      他若不死必是十大元帥之首?毛主席:他比我厲害十倍

      他若不死必是十大元帥之首?毛主席:他比我厲害十倍

      小豫講故事
      2026-05-04 06:00:15
      一查嚇一跳!16歲少女體內(nèi)竟布滿數(shù)百枚……部分已癌變!醫(yī)生:這項(xiàng)檢查要早做

      一查嚇一跳!16歲少女體內(nèi)竟布滿數(shù)百枚……部分已癌變!醫(yī)生:這項(xiàng)檢查要早做

      蓬勃新聞
      2026-05-30 16:41:30
      直到伊朗下令轟炸美空軍基地,全世界才驚覺:中國有句話說得很對(duì)

      直到伊朗下令轟炸美空軍基地,全世界才驚覺:中國有句話說得很對(duì)

      福建睿平
      2026-06-01 13:12:14
      只有4人至少1世界杯1金球獎(jiǎng)2歐冠:登貝萊上榜!梅西遠(yuǎn)超標(biāo)準(zhǔn)!

      只有4人至少1世界杯1金球獎(jiǎng)2歐冠:登貝萊上榜!梅西遠(yuǎn)超標(biāo)準(zhǔn)!

      歷史第一人梅西
      2026-05-31 21:51:52
      8倍算力大牛股,一字跌停!8萬股民受波及

      8倍算力大牛股,一字跌停!8萬股民受波及

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2026-06-01 15:44:53
      真好用?段永平點(diǎn)贊特斯拉FSD:不小心睡著40分鐘

      真好用?段永平點(diǎn)贊特斯拉FSD:不小心睡著40分鐘

      泡泡網(wǎng)
      2026-06-01 16:41:13
      與女友分手傳聞?wù)嫦啻蟀缀螅嫳娡賯餍孪ⅲ幸稽c(diǎn)他一直沒變

      與女友分手傳聞?wù)嫦啻蟀缀螅嫳娡賯餍孪ⅲ幸稽c(diǎn)他一直沒變

      翰飛觀事
      2026-06-01 16:47:45
      罕見!指數(shù)大跌、3800股上漲、縮量5000億!是不是眼花了?

      罕見!指數(shù)大跌、3800股上漲、縮量5000億!是不是眼花了?

      徐sir財(cái)經(jīng)
      2026-06-01 16:28:33
      高盛稱對(duì)沖基金以六個(gè)月來的最快速度買入美股

      高盛稱對(duì)沖基金以六個(gè)月來的最快速度買入美股

      財(cái)聯(lián)社
      2026-06-01 17:07:13
      原來他們是夫妻,從相愛到結(jié)婚只用1年,如今丈夫憑新電影又紅了

      原來他們是夫妻,從相愛到結(jié)婚只用1年,如今丈夫憑新電影又紅了

      白面書誏
      2026-05-29 21:44:35
      2026-06-01 19:39:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13135文章數(shù) 142658關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實(shí)錄|40年來PC首次重設(shè)計(jì)!

      頭條要聞

      浙江一600年古樹遷移后死亡 鎮(zhèn)領(lǐng)導(dǎo)被指給60萬封口費(fèi)

      頭條要聞

      浙江一600年古樹遷移后死亡 鎮(zhèn)領(lǐng)導(dǎo)被指給60萬封口費(fèi)

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢(mèng)瑤婚禮現(xiàn)場(chǎng)圖!一雙兒女當(dāng)花童

      財(cái)經(jīng)要聞

      宇樹過會(huì),杭州贏麻了

      汽車要聞

      吉利汽車5月銷量23.76萬輛 連續(xù)三月雙增創(chuàng)出口新高

      態(tài)度原創(chuàng)

      旅游
      家居
      游戲
      本地
      公開課

      旅游要聞

      逛故宮的游客注意了,坤寧宮明起檢修請(qǐng)繞行

      家居要聞

      自信舒展 高背座椅

      《月光嶺物語 ~Moonlight Peaks~》決定實(shí)裝“J-Anime 風(fēng)格”!!

      本地新聞

      用剪紙的方式,打開江蘇揚(yáng)州

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色婷婷丁香综合激情| 国产精品普通话国语对白露脸| 色噜噜成人综合网站| 欧洲熟妇熟女久久精品综合| 中文字幕无线码中文字幕| 免费人成在线观看VR网站| 丁香婷婷色综合激情五月| 久久精品国产av一区二区三区 | аⅴ天堂国产最新版在线中文| 日韩精品一区二区三区激情视频 | 男女啪啪高清无遮挡免费| 国产精品亚洲mnbav网站| 40分钟永久免费又黄又粗| 亚洲一区二区三区影院| 色翁荡息又大又硬又粗视频| 岛国av在线| 青草视频在线观看视频| 亚洲综合社区| 亚洲AV丰满熟妇在线播放| 成人自拍小视频在线观看| 91在线公开视频| 亚洲 另类 日韩 制服 无码| 亚洲精品久久久久成人2007| 男人天堂社区| 精品无码视频| 国产大爆乳大爆乳在线播放| 欧美人成精品网站播放| 亚洲av天码一区二区| 无码人妻一区二区三区av| 国内自拍视频在线一区| 亚洲欧美激情在线一区| 人妻蜜臀久久av不卡| 久久精品国产69国产精品亚洲 | 日本99视频| 欧美人成片免费看视频| 久久三级| 国产主播精品福利午夜二区| 999精品全免费观看视频| 大量国产激情视频在线观看| 露脸国产精品自产拍在线观看| 91精品国产成人观看|