網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

將DSA注意力引入多模態(tài)，快手Keye2.0開啟強(qiáng)化推理新范式

2026-05-27 09:14:35　來源: 量子位

北京舉報

分享至

允中發(fā)自凹非寺
量子位 | 公眾號 QbitAI

當(dāng)你把一段長達(dá)9分鐘、在“晴空萬里”與“冰天雪地”間劇烈切換的冰島旅行Vlog輸入給大模型，并要求它做一份旅行攻略時，常規(guī)的視覺大模型通常只能給出一份基于字幕和畫面標(biāo)簽拼湊的“流水賬”。

但實際上，長視頻理解不僅需要識別每一幀里出現(xiàn)了什么，還要在連續(xù)的時序流動中捕捉因果鏈條

而作為快手自研多模態(tài)大語言模型，Keye-VL-2.0-30B-A3B展現(xiàn)出了截然不同的理解能力。

它不僅看見了畫面，更讀懂了畫面背后的因果。

先來看視頻：

【視頻請到公眾號查看】

Keye-VL-2.0-30B-A3B捕捉到了“凍手”細(xì)節(jié)，主動建議備好保暖手套；聽到了獵奇美食吐槽，給出“體驗當(dāng)?shù)匚幕钡母咔樯探ㄗh；敏銳察覺到了“雪地車禍”畫面，直接輸出“跟團(tuán)優(yōu)于自駕”的安全策略……

這已經(jīng)超越了簡單的畫面標(biāo)簽識別，這是在連貫的時序流動中梳理因果、并基于人類邏輯進(jìn)行深度規(guī)劃的“慢思考”。

在多模態(tài)大模型從“基礎(chǔ)感知”向“深度推理”演進(jìn)的浪潮中，快手團(tuán)隊始終在思考兩個問題：

如何突破視頻理解任務(wù)中超長視覺上下文帶來的算力瓶頸？又如何讓模型從一個單純的“觀察者”進(jìn)化為能解決實際復(fù)雜任務(wù)的“行動者”？

今天，快手正式發(fā)布了新版多模態(tài)大模型Keye-VL-2.0-30B-A3B。

作為Keye家族最新一代的30B級主力基座，Keye-VL-2.0-30B-A3B率先將DSA（DeepSeek Sparse Attention）機(jī)制引入多模態(tài)理解場景，成功解鎖了256K超長上下文的深度感知，在長視頻時序感知上實現(xiàn)了幾乎無損的推理能力。

更具里程碑意義的是，這也是Keye系列首次解鎖Agent協(xié)作機(jī)制，在Code、Tool、Search等復(fù)雜場景下展現(xiàn)出了扎實的系統(tǒng)級協(xié)作與執(zhí)行潛力。

五大技術(shù)引擎重塑多模態(tài)底座

DSA首次落地多模態(tài)，破解長視頻理解瓶頸

視頻理解的痛點，往往在于超長視覺上下文帶來的指數(shù)級計算開銷與核心信息的稀釋。

Keye-VL-2.0-30B-A3B在底層架構(gòu)上完成了關(guān)鍵跨越——首次在多模態(tài)理解場景中成功應(yīng)用了DSA（DeepSeek Sparse Attention）。

通過結(jié)合稀疏注意力與極具針對性的特征聚合，模型在處理長達(dá)小時級的視頻序列時，能夠有效進(jìn)行高噪環(huán)境下的信息提純，精準(zhǔn)捕捉關(guān)鍵幀并理清動態(tài)規(guī)律。

這一架構(gòu)優(yōu)勢在細(xì)粒度視頻時序理解最新基準(zhǔn)（TimeLens）中得到了極致驗證。

需要說明的是，該榜單論文官方僅公布了Gemini-2.5-Pro的成績，為了保證評測的嚴(yán)謹(jǐn)性，快手團(tuán)隊嚴(yán)格按照相同評測方式，在內(nèi)部同步測試了Gemini 3 Flash作為實測基線比對：

日常動作時序解析（Charades-TimeLens）：模型以58.4的mIoU強(qiáng)勢對標(biāo)實測的最強(qiáng)視頻理解閉源標(biāo)桿Gemini 3 Flash（61.2）。
視頻動作定位（ActivityNet-TimeLens）：憑借58.5的mIoU，實現(xiàn)了對官方數(shù)據(jù)Gemini-2.5-Pro（58.1）以及實測數(shù)據(jù)Gemini 3 Flash（57.0）的全面超越。
高光時刻提取（QVHighlights-TimeLens）：模型的mIoU達(dá)到70.1，與官方榜單的頂尖閉源模型并駕齊驅(qū)，并大幅超過實測的Gemini 3 Flash（49.5）。

時序解析意味著厘清動作發(fā)生的精確邊界，并給出所屬視頻中的準(zhǔn)確時間。我們向Keye-VL-2.0-30B-A3B輸入了一段制作陶杯的工藝流程視頻。

【視頻請到公眾號查看】

面對繁復(fù)的手工動作，模型展現(xiàn)出了手術(shù)刀般的幀級判斷力，直接輸出了一份帶有精確時間戳的工藝全拆解：

方解石原料處理：用錘子將原石砸成小塊；放入竹篩中在溪流中反復(fù)沖洗去除雜質(zhì)。
方解石煅燒與制漿：放土窯加木炭煅燒至高溫（約950℃）；開窯取出白色粉末；加水研磨制成細(xì)膩漿液（水飛工藝）。
陶土采集與處理：山地挖取紅褐色陶土；倒缸加水?dāng)嚢枞ルs質(zhì)。
茶杯坯體制作與裝飾：轉(zhuǎn)輪手工拉坯塑形；精細(xì)修整厚度形狀；底部貼方形印章款識并修整。
配釉與施釉：按比例稱取石英石長石等原料并加水?dāng)嚢柚茲{；坯體反復(fù)浸入釉漿后自然晾干。
燒制與成品展示：裝窯堆疊；燒柴升溫至1200℃；出窯清洗浸入陳茶水中氧化調(diào)整釉色；最終呈現(xiàn)開片、鐵足等釉色特征。

從挖土、煅燒、水飛到修坯、配釉、陳茶，全程極具專業(yè)壁壘的手工工序，模型不僅全部準(zhǔn)確識別，更將每一個工藝動作與視頻時間軸實現(xiàn)了毫秒級的完美咬合。

再來一段《王者榮耀》高燃對局的視頻。

【視頻請到公眾號查看】

當(dāng)接收到“請找出視頻中的高光時刻，并給出你的依據(jù)，時間戳用[mm:ss]的形式來表示”的指令時，Keye-VL-2.0- 30B-A3B沒有陷入傳統(tǒng)AI“哪里有擊殺提示就截取哪里”或“只看畫面元素劇烈變化”的機(jī)械邏輯。

它的做法是基于視覺張力、音畫協(xié)同以及電競敘事的深刻理解，給出了極具玩家共鳴的精準(zhǔn)判定：

視覺與節(jié)奏的雙重爆發(fā)——模型判定依據(jù)：模型敏銳捕捉到了畫面中最激烈的團(tuán)戰(zhàn)場景，不僅能精細(xì)識別“金色、紫色光效交織”的特效，還能準(zhǔn)確讀取“276”“132”等具體的動態(tài)傷害數(shù)值。它將這些視覺元素的密集程度作為戰(zhàn)斗節(jié)奏緊湊的直接證據(jù)，展現(xiàn)了極強(qiáng)的動態(tài)視覺解析力。
音畫協(xié)同的戲劇張力構(gòu)建——模型判定依據(jù)：模型并沒有局限于游戲畫面本身，跨模態(tài)捕捉到了底部的英文歌詞字幕。它成功理解了帶有燃向色彩的歌詞與激烈對局之間的關(guān)聯(lián)，指出了這種“音畫協(xié)同”如何將視頻的戲劇張力推向高潮。
“絕境翻盤”的情緒共鳴點——模型判定依據(jù)：這是最體現(xiàn)模型深度的部分。它通過讀取畫面中的“27 vs 35”判定出己方劣勢的背景，結(jié)合團(tuán)戰(zhàn)的膠著狀態(tài)，精準(zhǔn)提煉出“絕境翻盤”這一電競核心敘事節(jié)點。它證明了自己不僅能看懂畫面，更能切中游戲視頻背后的情緒感染力與觀賞價值。
全局視角的對比排他邏輯——模型判定依據(jù)：模型的分析并沒有孤立存在，而是展現(xiàn)出了宏觀的全局視野。它主動將高光片段與此前的戰(zhàn)斗、追擊片段（00:00-00:16 / 00:17-00:58）進(jìn)行了全盤對比，從特效強(qiáng)度、節(jié)奏張力和敘事意義三個維度嚴(yán)密論證了該時段的不可替代性，邏輯閉環(huán)極具說服力。

為了更直觀地展現(xiàn)這種跨代際的領(lǐng)先，可以將其在核心視頻理解基準(zhǔn)上的表現(xiàn)進(jìn)行可視化對比。

如下圖所示，無論是TimeLens的細(xì)粒度動作錨定，還是在LongVideoBench上的綜合長時序解析，Keye-VL-2.0-30B-A3B都展現(xiàn)出了對同級別甚至200B+超大參數(shù)開源基座的顯著壓制力。

除此之外，模型還實現(xiàn)了極致的推理成本與專屬Infra訓(xùn)練系統(tǒng)重構(gòu)

作為30B級別的基座，Keye-VL-2.0-30B-A3B不僅在時序理解上顯著優(yōu)于超兩千億參數(shù)的開源模型，更在底層算力效能上實現(xiàn)了飛躍。

一方面是推理成本大幅攤薄，引入DSA架構(gòu)與系統(tǒng)級工程優(yōu)化后，模型長序列Prefill（預(yù)填充）階段成本降低了50%。

更重要的是，隨著輸入視頻上下文的拉長，傳統(tǒng)Full Attention的Decode計算量會呈指數(shù)級暴增，而快手團(tuán)隊基于DSA的Decode成本曲線展現(xiàn)出了極其平緩的增長態(tài)勢，為超長視頻的大規(guī)模落地提供了極具競爭力的低成本方案。

另一方面是破解長視頻訓(xùn)練瓶頸，快手打造了專為長視頻、變長序列服務(wù)的訓(xùn)練Infra：

通過可橫向擴(kuò)展的ExtraIO架構(gòu)將IO獨(dú)立部署、按需擴(kuò)容，消除視頻解碼與抽幀帶來的IO瓶頸；
采用ViT–LM異構(gòu)并行 + 兩級負(fù)載均衡 + ViT激活值零顯存優(yōu)化（Recompute/Offload），破解了長視頻、變長序列下計算/顯存的均衡難題；
基于FlashInfer、TileLang對變長序列模式下的DSA進(jìn)行深度調(diào)優(yōu)，使得長序列訓(xùn)練性能相比基于開源方案適配的Baseline直接翻倍。

極致的細(xì)粒度感知與時序推理，實現(xiàn)視頻SOTA

基于強(qiáng)大的底層基礎(chǔ)架構(gòu)，快手團(tuán)隊在“時空統(tǒng)一編碼”與“長時序特征聚合”上進(jìn)行了深度優(yōu)化。

相較于歷史版本，Keye-VL-2.0-30B-A3B的視頻理解能力實現(xiàn)了全方位躍升，不僅在當(dāng)前同尺寸模型中登頂SOTA，更在多項核心時序指標(biāo)上跨越了尺寸壁壘。

模型不僅能“看懂”畫面的靜態(tài)切片，更具備了強(qiáng)大的時序因果推理能力。

這一跨越式的進(jìn)化，在多項權(quán)威視頻理解榜單的最終定版實測中得到了極其有力的數(shù)據(jù)印證。

打破了“長上下文衰減”魔咒（VideoMME V2），也就是業(yè)界普遍面臨著的“輸入幀數(shù)越多，注意力越稀釋、準(zhǔn)確率越低”的痛點。

Keye-VL-2.0-30B-A3B徹底扭轉(zhuǎn)了這一趨勢——當(dāng)輸入視頻從64幀極限擴(kuò)展至512幀時，模型的平均準(zhǔn)確率（ACC）不僅未見衰減，反而從35.34%逆勢大幅飆升至42.44%

同時，代表復(fù)雜邏輯深度的非線性得分（Non-Liner Score）亦從18.54穩(wěn)步跨越至24.19。

這種反直覺表現(xiàn)，完美驗證了其在超長序列下的絕對統(tǒng)治力。

超長視頻綜合理解（LongVideoBench）方面，當(dāng)模型面對長達(dá)數(shù)十分鐘甚至小時級的復(fù)雜視頻理解任務(wù)時，斬獲了74.10的高分，將同級別開源基座遠(yuǎn)遠(yuǎn)甩在身后，跨級逼近頂級閉源巨頭。

真正的長視頻理解，是對復(fù)雜劇情跌宕、空間跳躍與情感暗線的全面洞察。

我們向模型輸入了一段長達(dá)8分鐘、記錄“長白山云頂天宮雪雕重建”的紀(jì)錄片，要求其給出詳細(xì)的場景劃分與敘事總結(jié)。

【視頻請到公眾號查看】

面對這部充滿波折的群像短片，模型不僅精準(zhǔn)切分了8個核心場景，更展現(xiàn)出了驚人的“敘事解構(gòu)”能力：

空間與事件的精準(zhǔn)追蹤：從起初的圖紙分歧（00:18），到夜間大型造雪機(jī)進(jìn)場施工（01:29），再到通過航拍對比小鎮(zhèn)從“爛尾樓”變“繁華夜市”（02:48），模型精準(zhǔn)識別了所有場景跳躍；
災(zāi)難沖突的因果提取：在03:45節(jié)點，模型敏銳捕捉到了“天空陰沉、冰雪融化飛檐變鈍”的視覺細(xì)節(jié)，結(jié)合旁白精準(zhǔn)總結(jié)出了核心劇情轉(zhuǎn)折：“百年不遇的冬雨導(dǎo)致雪體坍塌，團(tuán)隊陷入死局。”
情感與主題的深度升華：模型并沒有停留在“建雪雕”的表層，它提取了畫面中巨大的“振興東北”刻字，關(guān)聯(lián)了片中“老程盼女兒、小李回流家鄉(xiāng)”的人物背景，在總結(jié)中直指故事內(nèi)核：“極寒的溫度凍不住東北人的熱血，冰雪項目不僅是奇觀，更是承載著東北人振興家鄉(xiāng)、呼喚游子歸鄉(xiāng)的熾熱情感與現(xiàn)實路徑。”

這樣的表現(xiàn)，已經(jīng)超越了視頻打標(biāo)員，成為了一位具備極高人文共情能力的“閱卷人”。

此外在全能視聽推理（MLVU & VideoMMMU）上，模型需要從微觀動作追蹤到宏觀跨學(xué)科視頻解析，結(jié)果在MLVU (82.80)與VideoMMMU (79.98)等多維高難榜單中均交出了傲視同儕的答卷。

Agent框架打通“感知-規(guī)劃-執(zhí)行”全鏈路

作為Keye家族邁向真實業(yè)務(wù)場景的關(guān)鍵一步，Keye-VL-2.0-30B-A3B首次在多模態(tài)基座中內(nèi)建了Agent協(xié)作機(jī)制。

面對復(fù)雜的多步任務(wù)，模型跳出了傳統(tǒng)單輪對話的框架，著力構(gòu)建了一套相對穩(wěn)定、可靠的自動化調(diào)度基線。

Code Agent（代碼工程基線）方面，在業(yè)內(nèi)巨頭林立的代碼賽道，快手選擇務(wù)實地構(gòu)建多模態(tài)代碼能力的有效水位。

模型初步打通了基礎(chǔ)題的邏輯推演，并在真實代碼倉庫的解析上進(jìn)行了探索。

實測數(shù)據(jù)顯示，定版模型在LivecodeBench v6 (77.10)與OJBench (39.20)的算法評測中，不僅領(lǐng)先于同級別參數(shù)模型，甚至在基礎(chǔ)推演能力上超越了部分兩千億參數(shù)的開源基座。

在更貼近真實業(yè)務(wù)線的SWE-bench Verified任務(wù)中，模型也跑通了62.00的基線成績，初步具備了定位并修復(fù)代碼Issue的能力。

更重要的是，模型充分發(fā)揮了基座的視覺優(yōu)勢，在HTML前端生成（如視覺手稿直轉(zhuǎn)網(wǎng)頁）等極具業(yè)務(wù)價值的細(xì)分場景上，跑通了結(jié)合執(zhí)行反饋的自我糾錯閉環(huán)。

Tool Agent（工具調(diào)用與調(diào)度）方面，模型也展現(xiàn)出了扎實的意圖理解與接口調(diào)度能力。

這一能力在TAU2-Bench(82.58)、BFCL-V4 (65.72)以及多模態(tài)Agent測試集VITA-Bench (33.12)中得到了印證，其中在側(cè)重復(fù)雜多步調(diào)度的TAU2-Bench上，模型跨尺寸建立了顯著優(yōu)勢。

為了驗證其實際業(yè)務(wù)容錯率，我們向模型輸入了一段高度交織的復(fù)雜指令，要求其同時處理“查詢指定標(biāo)簽門店、測算經(jīng)緯度配送距離、篩選商品并最終創(chuàng)建酒店及配送訂單”。

面對這種極易導(dǎo)致模型崩潰的“多線程”需求，Keye-VL-2.0-30B-A3B展現(xiàn)出了極為冷靜的多步任務(wù)分解（Task Planning）能力。

它自主規(guī)劃并按序調(diào)用了get_delivery_store_info、longitude_latitude_to_distance、create_hotel_order等十余次API。

在長達(dá)數(shù)十輪的執(zhí)行流中，模型不僅準(zhǔn)確提取了上下文參數(shù)作為后續(xù)API的輸入?yún)?shù)，更在底層跑通了容錯邏輯——

依靠強(qiáng)大的自我推理完成狀態(tài)自檢與策略調(diào)整，最終向用戶輸出了排版清晰、狀態(tài)明確的執(zhí)行結(jié)果。完美適應(yīng)了高度自動化的文本工作流。

MOPD專家合版，克服災(zāi)難性遺忘

在垂域能力拓展階段，為解決多任務(wù)學(xué)習(xí)的“災(zāi)難性遺忘”，快手團(tuán)隊創(chuàng)新性地引入了跨模態(tài)MOPD（多專家策略蒸餾/合并）技術(shù)。

通過分段re-tokenize方法，團(tuán)隊保證了多模態(tài)場景下序列的嚴(yán)格對齊。

在動態(tài)路由與參數(shù)融合的作用下，該方法有效整合了各垂域?qū)＜夷Ｐ汀?/p>

在此基礎(chǔ)上，他們獨(dú)創(chuàng)了分桶優(yōu)勢縮放（Bucket Advantage Scaling）方法，從Token級別對結(jié)構(gòu)組織、教師表達(dá)、感知表征與推理運(yùn)算進(jìn)行細(xì)粒度建模，并在優(yōu)勢估計階段施加差異化縮放。

這一機(jī)制極大強(qiáng)化了核心的感知與推理信號，抑制了格式性、模板性Token的干擾。

同時，為釋放Dense Reward的優(yōu)勢，快手團(tuán)隊首次將MOPD引入重復(fù)崩潰治理，通過多粒度識別與精確定位，將原本模糊的負(fù)向反饋轉(zhuǎn)化為可追溯的優(yōu)化信號，顯著提升了長序列生成的魯棒性。

真正的多任務(wù)融合，不能以犧牲通用底座能力為代價。下圖是Keye-VL-2.0-30B-A3B最終定版在全維度基準(zhǔn)測試中的“全景成績單”：

得益于MOPD技術(shù)的有機(jī)融合，模型不僅在Video和Agent等核心陣地登頂，更在極度考驗邏輯的數(shù)學(xué)推理（Math & Reasoning）、STEM以及指令遵循（Instruction Following）等通用能力上迎來了全面爆發(fā)。

Context-RL與嚴(yán)苛數(shù)據(jù)引擎，構(gòu)筑推理的絕對可靠性

為了讓模型蛻變?yōu)椤皣?yán)密且實事求是的邏輯引擎”，快手團(tuán)隊在后訓(xùn)練（Post-Training）階段，量身定制了一套極具深度的多模態(tài)強(qiáng)化學(xué)習(xí)體系，核心建立在兩大基石之上。

一是創(chuàng)新獎勵信號，實現(xiàn)超幾何分布級別的事實性監(jiān)督

在視覺感知與多模態(tài)推理中，為了解決“可靠性難以評估”的痛點，在常規(guī)規(guī)則外，模型開創(chuàng)性引入了Context-RL獎勵機(jī)制

該機(jī)制利用混合模態(tài)的參考信息，構(gòu)建了極其稠密的細(xì)粒度獎勵信號，實現(xiàn)了超幾何分布級別的事實性監(jiān)督。

它強(qiáng)力壓制了多步推理、復(fù)雜學(xué)科（數(shù)學(xué)/醫(yī)療/代碼）場景下的幻覺傾向，迫使模型嚴(yán)格錨定輸入信息進(jìn)行毫無發(fā)散的可靠長程推演。

二是嚴(yán)苛的數(shù)據(jù)引擎，這里快手團(tuán)隊采取了極致的篩選與準(zhǔn)確率過濾手段。

高質(zhì)量獎勵必須依托純凈的數(shù)據(jù)引擎。

為此，他們設(shè)計了極為嚴(yán)格的數(shù)據(jù)篩選配比流程，并引入高效的準(zhǔn)確率過濾機(jī)制（Accuracy Filtering），實時剔除低質(zhì)量、邏輯斷層的樣本軌跡。

這種“高信噪比數(shù)據(jù)”與“高精度獎勵”的完美結(jié)合，徹底打破了RL訓(xùn)練中的作弊與坍塌，確保模型在長上下文推演中的決策穩(wěn)定性實現(xiàn)了質(zhì)的飛躍。

扎根真實業(yè)務(wù)生態(tài)，驅(qū)動內(nèi)容與商業(yè)雙飛輪

評測榜單上的突破，從來不是Keye迭代的終點。

多模態(tài)理解大模型與Agent能力在各真實業(yè)務(wù)場景中的深度落地，才是快手在2026年乃至未來技術(shù)投入的重中之重。

告別空泛的行業(yè)熱詞堆砌，快手的全景布局既錨定行業(yè)通用能力的扎實基座，更聚焦最堅實的業(yè)務(wù)落地與真實收益，Keye-VL正在從下面的三個維度，全面重塑真實業(yè)務(wù)流。

多模態(tài)理解融入到核心業(yè)務(wù)，拿到真實收益

多模態(tài)理解能力，是快手龐大內(nèi)容與商業(yè)生態(tài)邁向全面智能化的基石。

Keye-VL-2.0-30B-A3B正在將極具細(xì)粒度的長視頻感知與圖文解析能力，無縫融入到生成式推薦、內(nèi)容生態(tài)治理以及商業(yè)化定向投放等核心鏈路中。

目前，模型已在多個內(nèi)部高優(yōu)應(yīng)用場景率先落地。

它不僅能像人類一樣精準(zhǔn)捕捉視頻畫面的“弦外之音”與時序邏輯，極大提升了推薦系統(tǒng)的分發(fā)命中率，更在廣告營銷的精細(xì)化標(biāo)簽提取上，實打?qū)嵉厝〉昧孙@著的商業(yè)收益轉(zhuǎn)化。

通過Keye-VL，快手正在讓最前沿的算力與算法，真正成為反哺主營業(yè)務(wù)的增長引擎。

Video × Agent，重塑視頻素材生產(chǎn)范式

面向未來的智能生態(tài)演進(jìn)方向，Keye新解鎖的Agent協(xié)作機(jī)制正直接賦能龐大的創(chuàng)作者群體與商業(yè)生態(tài)。

快手會將“精準(zhǔn)多模態(tài)理解”與“Agent自動化調(diào)度”深度融合，打造端到端的全自動閉環(huán)工作流。

面對海量且高頻的短視頻業(yè)務(wù)訴求，模型不再僅僅是看懂內(nèi)容的“旁觀者”，化身為深入生產(chǎn)一線的“智能調(diào)度樞紐”。

從海量視頻庫中的智能檢索、關(guān)鍵高光切片提取，到基于邏輯演進(jìn)的自動化剪輯包裝，再到契合爆款邏輯的營銷文案生成，Keye-VL都極大降低了優(yōu)質(zhì)內(nèi)容的生產(chǎn)門檻，真正拉動生態(tài)生產(chǎn)力。

以30B為基石，構(gòu)建下一代智能基建壁壘

Keye-VL-2.0-30B-A3B的成功落地，是對快手從底層DSA算力優(yōu)化、海量數(shù)據(jù)飛輪到后訓(xùn)練Context-RL算法鏈路的有力驗證。

這不僅解決了當(dāng)下的業(yè)務(wù)痛點，更為下一階段的研發(fā)掃清了工程障礙。

他們將以30B版本的成功經(jīng)驗為跳板，穩(wěn)步向真正的原生多模態(tài)（Native Multimodal）與端到端深度融合挺進(jìn)。

快手拒絕盲目的跟風(fēng)炒作，通過一次次扎實的業(yè)務(wù)驗證與版本迭代，持續(xù)構(gòu)筑具有深度的行業(yè)技術(shù)影響力，沉淀不可替代的核心基建壁壘。

從突破算力瓶頸，到深入業(yè)務(wù)一線。跑分不是終點，落地才是

Keye-VL-2.0-30B-A3B，現(xiàn)已就緒。

致謝：本文案例演示的視頻素材源自快手平臺@愛德黎子、@山白、@南翔、@穆穆（鬼神）
開源主頁與模型權(quán)重已同步上線
Hugging Face: https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
GitHub: https://github.com/Kwai-Keye/Keye

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.