網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

告別多獎(jiǎng)勵(lì)蹺蹺板：Flow-OPD將多教師OPD帶入圖像生成

2026-05-25 14:49:32　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文由中國科學(xué)技術(shù)大學(xué)、加州大學(xué)洛杉磯分校、香港中文大學(xué)和小紅書等機(jī)構(gòu)合作完成。共同作者第一為中國科學(xué)技術(shù)大學(xué)一年級(jí)研究生方鎮(zhèn)，他的研究方向?yàn)橥ㄓ枚嗄B(tài)智能體。

今年以來，在線策略蒸餾 OPD（On-Policy Distillation）已經(jīng)逐漸成為大廠 LLM 后訓(xùn)練中的重要組件，例如DeepSeek-V4，GLM5就使用了多教師 OPD 來整合不同領(lǐng)域?qū)＜夷Ｐ偷哪芰Γ啾然旌溪?jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)收斂更快、效果更好。

那么這樣一種高效直觀的多教師 OPD 策略是否能夠應(yīng)用于圖像生成任務(wù)呢？如果可行，這將是構(gòu)建涵蓋多種生成內(nèi)容、生成質(zhì)量良好、風(fēng)格多樣的超強(qiáng)通才文生圖模型的一次有益嘗試！

最近，來自 USTC、UCLA、CUHK 和小紅書的研究團(tuán)隊(duì)開創(chuàng)性地提出了Flow-OPD，這是首個(gè)將 OPD 引入流匹配模型的統(tǒng)一多任務(wù)后訓(xùn)練框架，為構(gòu)建可靠、多維度泛化的視覺基礎(chǔ)模型提供了高度可擴(kuò)展的對(duì)齊新范式。

論文標(biāo)題：Flow-OPD: On-Policy Distillation for Flow Matching Models
論文鏈接
https://arxiv.org/abs/2605.08063
項(xiàng)目主頁
https://costaliya.github.io/Flow-OPD/
代碼地址
https://github.com/CostaliyA/Flow-OPD

一、核心問題：GRPO 在多任務(wù)中的系統(tǒng)性失效

在流匹配模型的后訓(xùn)練對(duì)齊中，核心問題在于模型無法同時(shí)兼顧多個(gè)異構(gòu)的對(duì)齊任務(wù)，陷入了嚴(yán)重的「蹺蹺板效應(yīng)」。

具體表現(xiàn)為：

單獎(jiǎng)勵(lì) GRPO雖然能在孤立的單目標(biāo)任務(wù)中讓模型逼近性能天花板，但會(huì)導(dǎo)致非目標(biāo)領(lǐng)域的對(duì)齊能力發(fā)生嚴(yán)重退化，引發(fā)「獎(jiǎng)勵(lì)黑客」行為，如上圖所示，使用 GenEval 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的模型無法成功完成文字渲染和風(fēng)格化生成任務(wù)；

混合獎(jiǎng)勵(lì) GRPO試圖通過簡單堆疊或混合多個(gè)標(biāo)量獎(jiǎng)勵(lì)函數(shù)來進(jìn)行聯(lián)合優(yōu)化，卻根本無法建立穩(wěn)定的認(rèn)知基礎(chǔ)，每當(dāng)引入新的獎(jiǎng)勵(lì)信號(hào)時(shí)，就會(huì)引發(fā)此前已習(xí)得能力的災(zāi)難性遺忘與參數(shù)吞噬。如下表所示，每當(dāng)有新的獎(jiǎng)勵(lì)模型加入訓(xùn)練，模型進(jìn)行基礎(chǔ)視覺生成和文本渲染的能力都會(huì)下降。

無論是 GRPO 單獨(dú)訓(xùn)練還是混合訓(xùn)練，其核心癥結(jié)在于稀疏的標(biāo)量獎(jiǎng)勵(lì)無法有效調(diào)和異構(gòu)任務(wù)之間的梯度沖突，導(dǎo)致單獨(dú)訓(xùn)練時(shí)因缺乏多維監(jiān)督而引發(fā)非目標(biāo)能力的嚴(yán)重降級(jí)，而混合訓(xùn)練則會(huì)因異構(gòu)梯度間的參數(shù)內(nèi)耗觸發(fā)對(duì)先前能力的災(zāi)難性遺忘。

那么，是否存在一種訓(xùn)練方式，在每一種任務(wù)上都能達(dá)到對(duì)應(yīng)的能力上界呢？是否可以通過一種方式，將多個(gè)單獎(jiǎng)勵(lì)訓(xùn)練的「教師模型」壓縮進(jìn)一個(gè)「學(xué)生」，從而構(gòu)建通才流匹配文生圖模型呢？

二、Flow-OPD：首個(gè)流匹配模型的 OPD 合版后訓(xùn)練框架

對(duì)于相似的多任務(wù)優(yōu)化難題，DeepSeek-V4 和 GLM5 等模型成功啟發(fā)了我們進(jìn)行一種另外的嘗試：多教師 OPD 合版。通過學(xué)生模型的在線 rollout 和教師模型的稠密獎(jiǎng)勵(lì)巧妙解決了多任務(wù)的梯度沖突。

Flow-OPD 的訓(xùn)練框架如上圖所示：

首先通過單獎(jiǎng)勵(lì) GRPO 培養(yǎng)對(duì)應(yīng)任務(wù)的教師；

對(duì)學(xué)生模型進(jìn)行冷啟動(dòng)，這里包含兩種冷啟動(dòng)策略，分別是監(jiān)督微調(diào) SFT 和模型融合。冷啟動(dòng)賦予了較高的初始表現(xiàn)，可以促使學(xué)生模仿教師的生成模式，從而快速收斂；

多教師 OPD 蒸餾：Flow-OPD 的核心思想是讓學(xué)生模型通過「實(shí)踐」暴露自身的錯(cuò)誤與偏差，并在自己生成的圖像路徑上，實(shí)時(shí)接受不同專家教師的精準(zhǔn)指引。訓(xùn)練時(shí)，學(xué)生模型通過帶有隨機(jī)性的動(dòng)態(tài)探索，自主生成圖像的演變軌跡。每走到一個(gè)具體的生成步驟，系統(tǒng)就會(huì)根據(jù)當(dāng)前的文字指令，自動(dòng)將任務(wù)派發(fā)給對(duì)應(yīng)的領(lǐng)域?qū)＜遥ㄈ缥淖咒秩緦＜一蚧A(chǔ)視覺元素生成專家）。這種「術(shù)業(yè)有專攻」的硬路由機(jī)制，讓特定專家只針對(duì)自身擅長的任務(wù)提供黃金標(biāo)準(zhǔn)指導(dǎo)。這里我們選擇教師和學(xué)生速度場(chǎng)的均方誤差對(duì)標(biāo) LLM OPD 中的 KL 散度。更進(jìn)一步地，我們選擇使用負(fù)均方誤差替代標(biāo)準(zhǔn) GRPO 中的獎(jiǎng)勵(lì)，無需組內(nèi)歸一化，使用 PPO-Style 進(jìn)行參數(shù)更新；

激進(jìn)地優(yōu)化功能性目標(biāo)往往會(huì)誘發(fā)嚴(yán)重的背景模式坍塌和語義冗余。為此，F(xiàn)low-OPD 引入流形錨點(diǎn)正則化（Manifold Anchor Regularization, MAR）。該機(jī)制維護(hù)了一個(gè)凍結(jié)的美學(xué)教師模型（Aesthetic Teacher），提供高保真的 KL 正則化，從而保證了學(xué)生的生成質(zhì)量和多樣性。

三、實(shí)驗(yàn)效果

為了驗(yàn)證 Flow-OPD 的性能，我們使用 stable-diffusion-3.5-medium（SD-3.5-M）作為基線模型，遵循 Flow-GRPO 的數(shù)據(jù)和訓(xùn)練方式進(jìn)行教師訓(xùn)練。

多任務(wù)性能

多任務(wù)訓(xùn)練常面臨「顧此失彼」的瓶頸，而新框架 Flow-OPD 實(shí)現(xiàn)了突破。它在文本渲染和圖像質(zhì)量等多個(gè)維度全面看齊并超越了各領(lǐng)域的專家模型，有效解決了多任務(wù)聯(lián)合訓(xùn)練中的能力衰退與優(yōu)化難題。

更重要的是，在多位導(dǎo)師模型集體失效的極端邊緣場(chǎng)景下，F(xiàn)low-OPD 表現(xiàn)出「青出于藍(lán)」的「出師」現(xiàn)象（如上圖的生成橙色剪刀）。這種通過多專家協(xié)同監(jiān)督的方式，成功消除了單一模型的領(lǐng)域偏見，促使學(xué)生模型在潛空間中融會(huì)貫通，最終探索出超越任意單一導(dǎo)師的更優(yōu)解法。

冷啟動(dòng)消融

冷啟動(dòng)初始化為后續(xù)訓(xùn)練快速奠定了堅(jiān)實(shí)基礎(chǔ)。在現(xiàn)有方案中，監(jiān)督微調(diào)（SFT）擴(kuò)展性強(qiáng)，具備吸收異構(gòu)導(dǎo)師能力冷啟動(dòng)的潛力；模型融合（Model Merging）則能在零訓(xùn)練成本下，完美對(duì)齊同構(gòu)導(dǎo)師的各項(xiàng)功能。

MAR 圖像質(zhì)量正則化

傳統(tǒng)的 GRPO 優(yōu)化由于獎(jiǎng)勵(lì)粒度過粗，容易導(dǎo)致模型陷入背景模式崩塌或語義冗余，而單純依賴導(dǎo)師模型又常面臨指令遵循度不足的困境。 MAR 成功突破了這一瓶頸。它將優(yōu)化過程錨定在高保真流形上，對(duì)于所有數(shù)據(jù)全流程監(jiān)督，在保持結(jié)構(gòu)多樣性的同時(shí)，實(shí)現(xiàn)了精準(zhǔn)的語義遵循。表格的定量結(jié)果進(jìn)一步證實(shí)，MAR 引入的全局?jǐn)?shù)據(jù)集監(jiān)督，在圖像視覺質(zhì)量與人類偏好對(duì)齊上均取得了顯著突破。

四、為什么 Flow-OPD 可以完成多任務(wù)聯(lián)合優(yōu)化？

Flow-OPD 成功的核心在于在線多專家密集監(jiān)督機(jī)制。傳統(tǒng)方法僅依賴稀疏的標(biāo)量獎(jiǎng)勵(lì)，極易引發(fā)任務(wù)間的梯度干擾。而 Flow-OPD 在在線訓(xùn)練過程中，將優(yōu)化實(shí)時(shí)錨定在高保真流形上，利用多位專家的密集信號(hào)進(jìn)行動(dòng)態(tài)、協(xié)同的引導(dǎo)。這種在線互動(dòng)不僅化解了梯度沖突、消除了單一偏見，更讓學(xué)生模型在潛空間中融會(huì)貫通，高效實(shí)現(xiàn)了多任務(wù)的實(shí)時(shí)聯(lián)合優(yōu)化與超越。

五、未來的研究方向

未來，F(xiàn)low-OPD 框架還可向多個(gè)方向拓展：

異構(gòu)導(dǎo)師的動(dòng)態(tài)調(diào)度：探索如何動(dòng)態(tài)引入不同架構(gòu)、不同模態(tài)（如純文本或具身模型）的異構(gòu)導(dǎo)師，并實(shí)現(xiàn)自動(dòng)化的在線權(quán)重分配。

跨流形軌跡的自發(fā)演化：深入探索「超越導(dǎo)師」現(xiàn)象，研究如何讓學(xué)生模型在潛空間中自發(fā)創(chuàng)造出導(dǎo)師從未涉足過的全新最優(yōu)生成軌跡。

輕量化在線蒸餾算法：開發(fā)動(dòng)態(tài)專家激活（MoE 化導(dǎo)師集群）或參數(shù)共享機(jī)制，大幅降低多專家在線訓(xùn)練時(shí)的算力和顯存開銷。

Flow-OPD 作為首次將在線策略蒸餾引入流匹配擴(kuò)散模型多任務(wù)訓(xùn)練的創(chuàng)新嘗試，成功打破了傳統(tǒng)聯(lián)合優(yōu)化的瓶頸。它不僅實(shí)現(xiàn)了多能力的完美融合，更展現(xiàn)出「青出于藍(lán)」的超越潛力。未來，這一全新范式有望在具身智能、跨模態(tài)協(xié)同等更廣泛的領(lǐng)域發(fā)酵，為構(gòu)建真正通用、全能的下一代生成式大模型開辟全新的演進(jìn)路徑。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.