![]()
本文由中國科學(xué)技術(shù)大學(xué)、加州大學(xué)洛杉磯分校、香港中文大學(xué)和小紅書等機(jī)構(gòu)合作完成。共同作者第一為中國科學(xué)技術(shù)大學(xué)一年級(jí)研究生方鎮(zhèn),他的研究方向?yàn)橥ㄓ枚嗄B(tài)智能體。
今年以來,在線策略蒸餾 OPD(On-Policy Distillation)已經(jīng)逐漸成為大廠 LLM 后訓(xùn)練中的重要組件,例如DeepSeek-V4,GLM5就使用了多教師 OPD 來整合不同領(lǐng)域?qū)<夷P偷哪芰Γ啾然旌溪?jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)收斂更快、效果更好。
那么這樣一種高效直觀的多教師 OPD 策略是否能夠應(yīng)用于圖像生成任務(wù)呢?如果可行,這將是構(gòu)建涵蓋多種生成內(nèi)容、生成質(zhì)量良好、風(fēng)格多樣的超強(qiáng)通才文生圖模型的一次有益嘗試!
最近,來自 USTC、UCLA、CUHK 和小紅書的研究團(tuán)隊(duì)開創(chuàng)性地提出了Flow-OPD,這是首個(gè)將 OPD 引入流匹配模型的統(tǒng)一多任務(wù)后訓(xùn)練框架,為構(gòu)建可靠、多維度泛化的視覺基礎(chǔ)模型提供了高度可擴(kuò)展的對(duì)齊新范式。
![]()
![]()
- 論文標(biāo)題:Flow-OPD: On-Policy Distillation for Flow Matching Models
- 論文鏈接
- https://arxiv.org/abs/2605.08063
- 項(xiàng)目主頁
- https://costaliya.github.io/Flow-OPD/
- 代碼地址
- https://github.com/CostaliyA/Flow-OPD
一、核心問題:GRPO 在多任務(wù)中的系統(tǒng)性失效
![]()
在流匹配模型的后訓(xùn)練對(duì)齊中,核心問題在于模型無法同時(shí)兼顧多個(gè)異構(gòu)的對(duì)齊任務(wù),陷入了嚴(yán)重的「蹺蹺板效應(yīng)」。
具體表現(xiàn)為:
單獎(jiǎng)勵(lì) GRPO雖然能在孤立的單目標(biāo)任務(wù)中讓模型逼近性能天花板,但會(huì)導(dǎo)致非目標(biāo)領(lǐng)域的對(duì)齊能力發(fā)生嚴(yán)重退化,引發(fā)「獎(jiǎng)勵(lì)黑客」行為,如上圖所示,使用 GenEval 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的模型無法成功完成文字渲染和風(fēng)格化生成任務(wù);
混合獎(jiǎng)勵(lì) GRPO試圖通過簡單堆疊或混合多個(gè)標(biāo)量獎(jiǎng)勵(lì)函數(shù)來進(jìn)行聯(lián)合優(yōu)化,卻根本無法建立穩(wěn)定的認(rèn)知基礎(chǔ),每當(dāng)引入新的獎(jiǎng)勵(lì)信號(hào)時(shí),就會(huì)引發(fā)此前已習(xí)得能力的災(zāi)難性遺忘與參數(shù)吞噬。如下表所示,每當(dāng)有新的獎(jiǎng)勵(lì)模型加入訓(xùn)練,模型進(jìn)行基礎(chǔ)視覺生成和文本渲染的能力都會(huì)下降。
![]()
無論是 GRPO 單獨(dú)訓(xùn)練還是混合訓(xùn)練,其核心癥結(jié)在于稀疏的標(biāo)量獎(jiǎng)勵(lì)無法有效調(diào)和異構(gòu)任務(wù)之間的梯度沖突,導(dǎo)致單獨(dú)訓(xùn)練時(shí)因缺乏多維監(jiān)督而引發(fā)非目標(biāo)能力的嚴(yán)重降級(jí),而混合訓(xùn)練則會(huì)因異構(gòu)梯度間的參數(shù)內(nèi)耗觸發(fā)對(duì)先前能力的災(zāi)難性遺忘。
那么,是否存在一種訓(xùn)練方式,在每一種任務(wù)上都能達(dá)到對(duì)應(yīng)的能力上界呢?是否可以通過一種方式,將多個(gè)單獎(jiǎng)勵(lì)訓(xùn)練的「教師模型」壓縮進(jìn)一個(gè)「學(xué)生」,從而構(gòu)建通才流匹配文生圖模型呢?
二、Flow-OPD:首個(gè)流匹配模型的 OPD 合版后訓(xùn)練框架
對(duì)于相似的多任務(wù)優(yōu)化難題,DeepSeek-V4 和 GLM5 等模型成功啟發(fā)了我們進(jìn)行一種另外的嘗試:多教師 OPD 合版。通過學(xué)生模型的在線 rollout 和教師模型的稠密獎(jiǎng)勵(lì)巧妙解決了多任務(wù)的梯度沖突。
![]()
Flow-OPD 的訓(xùn)練框架如上圖所示:
- 首先通過單獎(jiǎng)勵(lì) GRPO 培養(yǎng)對(duì)應(yīng)任務(wù)的教師;
- 對(duì)學(xué)生模型進(jìn)行冷啟動(dòng),這里包含兩種冷啟動(dòng)策略,分別是監(jiān)督微調(diào) SFT 和模型融合。冷啟動(dòng)賦予了較高的初始表現(xiàn),可以促使學(xué)生模仿教師的生成模式,從而快速收斂;
- 多教師 OPD 蒸餾:Flow-OPD 的核心思想是讓學(xué)生模型通過「實(shí)踐」暴露自身的錯(cuò)誤與偏差,并在自己生成的圖像路徑上,實(shí)時(shí)接受不同專家教師的精準(zhǔn)指引。訓(xùn)練時(shí),學(xué)生模型通過帶有隨機(jī)性的動(dòng)態(tài)探索,自主生成圖像的演變軌跡。每走到一個(gè)具體的生成步驟,系統(tǒng)就會(huì)根據(jù)當(dāng)前的文字指令,自動(dòng)將任務(wù)派發(fā)給對(duì)應(yīng)的領(lǐng)域?qū)<遥ㄈ缥淖咒秩緦<一蚧A(chǔ)視覺元素生成專家)。這種「術(shù)業(yè)有專攻」的硬路由機(jī)制,讓特定專家只針對(duì)自身擅長的任務(wù)提供黃金標(biāo)準(zhǔn)指導(dǎo)。這里我們選擇教師和學(xué)生速度場(chǎng)的均方誤差對(duì)標(biāo) LLM OPD 中的 KL 散度。更進(jìn)一步地,我們選擇使用負(fù)均方誤差替代標(biāo)準(zhǔn) GRPO 中的獎(jiǎng)勵(lì),無需組內(nèi)歸一化,使用 PPO-Style 進(jìn)行參數(shù)更新;
- 激進(jìn)地優(yōu)化功能性目標(biāo)往往會(huì)誘發(fā)嚴(yán)重的背景模式坍塌和語義冗余。為此,F(xiàn)low-OPD 引入流形錨點(diǎn)正則化(Manifold Anchor Regularization, MAR)。該機(jī)制維護(hù)了一個(gè)凍結(jié)的美學(xué)教師模型(Aesthetic Teacher),提供高保真的 KL 正則化,從而保證了學(xué)生的生成質(zhì)量和多樣性。
三、實(shí)驗(yàn)效果
為了驗(yàn)證 Flow-OPD 的性能,我們使用 stable-diffusion-3.5-medium(SD-3.5-M)作為基線模型,遵循 Flow-GRPO 的數(shù)據(jù)和訓(xùn)練方式進(jìn)行教師訓(xùn)練。
多任務(wù)性能
![]()
![]()
多任務(wù)訓(xùn)練常面臨「顧此失彼」的瓶頸,而新框架 Flow-OPD 實(shí)現(xiàn)了突破。它在文本渲染和圖像質(zhì)量等多個(gè)維度全面看齊并超越了各領(lǐng)域的專家模型,有效解決了多任務(wù)聯(lián)合訓(xùn)練中的能力衰退與優(yōu)化難題。
更重要的是,在多位導(dǎo)師模型集體失效的極端邊緣場(chǎng)景下,F(xiàn)low-OPD 表現(xiàn)出「青出于藍(lán)」的「出師」現(xiàn)象(如上圖的生成橙色剪刀)。這種通過多專家協(xié)同監(jiān)督的方式,成功消除了單一模型的領(lǐng)域偏見,促使學(xué)生模型在潛空間中融會(huì)貫通,最終探索出超越任意單一導(dǎo)師的更優(yōu)解法。
冷啟動(dòng)消融
![]()
冷啟動(dòng)初始化為后續(xù)訓(xùn)練快速奠定了堅(jiān)實(shí)基礎(chǔ)。在現(xiàn)有方案中,監(jiān)督微調(diào)(SFT)擴(kuò)展性強(qiáng),具備吸收異構(gòu)導(dǎo)師能力冷啟動(dòng)的潛力;模型融合(Model Merging)則能在零訓(xùn)練成本下,完美對(duì)齊同構(gòu)導(dǎo)師的各項(xiàng)功能。
MAR 圖像質(zhì)量正則化
![]()
![]()
傳統(tǒng)的 GRPO 優(yōu)化由于獎(jiǎng)勵(lì)粒度過粗,容易導(dǎo)致模型陷入背景模式崩塌或語義冗余,而單純依賴導(dǎo)師模型又常面臨指令遵循度不足的困境。 MAR 成功突破了這一瓶頸。它將優(yōu)化過程錨定在高保真流形上,對(duì)于所有數(shù)據(jù)全流程監(jiān)督,在保持結(jié)構(gòu)多樣性的同時(shí),實(shí)現(xiàn)了精準(zhǔn)的語義遵循。表格的定量結(jié)果進(jìn)一步證實(shí),MAR 引入的全局?jǐn)?shù)據(jù)集監(jiān)督,在圖像視覺質(zhì)量與人類偏好對(duì)齊上均取得了顯著突破。
四、為什么 Flow-OPD 可以完成多任務(wù)聯(lián)合優(yōu)化?
Flow-OPD 成功的核心在于在線多專家密集監(jiān)督機(jī)制。傳統(tǒng)方法僅依賴稀疏的標(biāo)量獎(jiǎng)勵(lì),極易引發(fā)任務(wù)間的梯度干擾。而 Flow-OPD 在在線訓(xùn)練過程中,將優(yōu)化實(shí)時(shí)錨定在高保真流形上,利用多位專家的密集信號(hào)進(jìn)行動(dòng)態(tài)、協(xié)同的引導(dǎo)。這種在線互動(dòng)不僅化解了梯度沖突、消除了單一偏見,更讓學(xué)生模型在潛空間中融會(huì)貫通,高效實(shí)現(xiàn)了多任務(wù)的實(shí)時(shí)聯(lián)合優(yōu)化與超越。
五、未來的研究方向
未來,F(xiàn)low-OPD 框架還可向多個(gè)方向拓展:
- 異構(gòu)導(dǎo)師的動(dòng)態(tài)調(diào)度:探索如何動(dòng)態(tài)引入不同架構(gòu)、不同模態(tài)(如純文本或具身模型)的異構(gòu)導(dǎo)師,并實(shí)現(xiàn)自動(dòng)化的在線權(quán)重分配。
- 跨流形軌跡的自發(fā)演化:深入探索「超越導(dǎo)師」現(xiàn)象,研究如何讓學(xué)生模型在潛空間中自發(fā)創(chuàng)造出導(dǎo)師從未涉足過的全新最優(yōu)生成軌跡。
- 輕量化在線蒸餾算法:開發(fā)動(dòng)態(tài)專家激活(MoE 化導(dǎo)師集群)或參數(shù)共享機(jī)制,大幅降低多專家在線訓(xùn)練時(shí)的算力和顯存開銷。
Flow-OPD 作為首次將在線策略蒸餾引入流匹配擴(kuò)散模型多任務(wù)訓(xùn)練的創(chuàng)新嘗試,成功打破了傳統(tǒng)聯(lián)合優(yōu)化的瓶頸。它不僅實(shí)現(xiàn)了多能力的完美融合,更展現(xiàn)出「青出于藍(lán)」的超越潛力。未來,這一全新范式有望在具身智能、跨模態(tài)協(xié)同等更廣泛的領(lǐng)域發(fā)酵,為構(gòu)建真正通用、全能的下一代生成式大模型開辟全新的演進(jìn)路徑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.