原文作者:用戶“多多的賈維斯”
原文鏈接:https://www.xiaohongshu.com/
KAN We Flow? Advancing Robotic Manipulation with 3D Flow Matching via KAN & RWKV
![]()
一、整體概述
1. 本文提出KAN-We-Flow,一種用于機(jī)器人三維操作的高效流匹配策略模型。
2. 核心貢獻(xiàn)在于用RWKV與KAN替代傳統(tǒng)大規(guī)模UNet骨干,在保持甚至提升成功率的同時(shí),大幅降低參數(shù)量與推理延遲。
3. 方法在Adroit、Meta-World、DexArt三大基準(zhǔn)上取得當(dāng)前最優(yōu)或并列最優(yōu)性能,參數(shù)量減少約86.8%,支持實(shí)時(shí)控制。
![]()
二、研究背景
1、擴(kuò)散式策略
① 優(yōu)點(diǎn)是動作分布建模能力強(qiáng)
② 缺點(diǎn)是需要多步去噪,推理慢、模型重,不利于真實(shí)機(jī)器人部署
2、流匹配策略
① 通過學(xué)習(xí)一步向量場實(shí)現(xiàn)快速生成
② 但現(xiàn)有方法仍大量依賴UNet,計(jì)算與存儲開銷依舊偏大
3、核心問題
如何在保證精度的前提下,進(jìn)一步壓縮模型規(guī)模并提升實(shí)時(shí)性
![]()
三、動機(jī)直覺
1、RWKV具備線性復(fù)雜度的時(shí)序建模能力,適合長時(shí)序動作預(yù)測
2、KAN基于可學(xué)習(xí)的一維函數(shù)逼近,能以更少參數(shù)表達(dá)復(fù)雜非線性映射
3、將二者結(jié)合,有望同時(shí)解決“長時(shí)序依賴”和“參數(shù)效率”問題
![]()
四、技術(shù)路線
1、整體框架
① 采用一致性流匹配,實(shí)現(xiàn)一步動作生成
② 輸入為點(diǎn)云感知、機(jī)器人狀態(tài)與時(shí)間編碼
2、核心網(wǎng)絡(luò)
① RWKV-KAN骨干網(wǎng)絡(luò)
* RWKV負(fù)責(zé)時(shí)間與通道混合,建模動作序列上下文
* GroupKAN對特征通道進(jìn)行分組的非線性函數(shù)校準(zhǔn),替代傳統(tǒng)MLP
② Action Consistency Regularization(ACR)
* 通過歐拉外推,將一步預(yù)測動作與專家軌跡在末端對齊
* 提供額外監(jiān)督,穩(wěn)定訓(xùn)練,不增加推理成本
3、學(xué)習(xí)目標(biāo)
聯(lián)合一致性流匹配損失與ACR正則項(xiàng)進(jìn)行端到端訓(xùn)練
![]()
五、實(shí)驗(yàn)結(jié)果
1、性能表現(xiàn)
① 在Adroit、Meta-World、DexArt上整體成功率優(yōu)于FlowPolicy與DP3
② 在高難度、長時(shí)序任務(wù)中優(yōu)勢更明顯
2、效率對比
① 參數(shù)量約33.6M,相比DP3減少86.8%
② 推理時(shí)間約8–11ms,滿足100Hz實(shí)時(shí)控制
3、消融實(shí)驗(yàn)
① RWKV、GroupKAN與ACR均對性能有穩(wěn)定增益
② ACR在長預(yù)測窗口下顯著降低動作漂移
雷峰網(wǎng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.