- 允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
當(dāng)你把一段長達(dá)9分鐘、在“晴空萬里”與“冰天雪地”間劇烈切換的冰島旅行Vlog輸入給大模型,并要求它做一份旅行攻略時,常規(guī)的視覺大模型通常只能給出一份基于字幕和畫面標(biāo)簽拼湊的“流水賬”。
但實際上,長視頻理解不僅需要識別每一幀里出現(xiàn)了什么,還要在連續(xù)的時序流動中捕捉因果鏈條
而作為快手自研多模態(tài)大語言模型,Keye-VL-2.0-30B-A3B展現(xiàn)出了截然不同的理解能力。
它不僅看見了畫面,更讀懂了畫面背后的因果。
先來看視頻:
【視頻請到公眾號查看】
Keye-VL-2.0-30B-A3B捕捉到了“凍手”細(xì)節(jié),主動建議備好保暖手套;聽到了獵奇美食吐槽,給出“體驗當(dāng)?shù)匚幕钡母咔樯探ㄗh;敏銳察覺到了“雪地車禍”畫面,直接輸出“跟團(tuán)優(yōu)于自駕”的安全策略……
![]()
這已經(jīng)超越了簡單的畫面標(biāo)簽識別,這是在連貫的時序流動中梳理因果、并基于人類邏輯進(jìn)行深度規(guī)劃的“慢思考”。
在多模態(tài)大模型從“基礎(chǔ)感知”向“深度推理”演進(jìn)的浪潮中,快手團(tuán)隊始終在思考兩個問題:
如何突破視頻理解任務(wù)中超長視覺上下文帶來的算力瓶頸?又如何讓模型從一個單純的“觀察者”進(jìn)化為能解決實際復(fù)雜任務(wù)的“行動者”?
今天,快手正式發(fā)布了新版多模態(tài)大模型Keye-VL-2.0-30B-A3B。
作為Keye家族最新一代的30B級主力基座,Keye-VL-2.0-30B-A3B率先將DSA(DeepSeek Sparse Attention)機(jī)制引入多模態(tài)理解場景,成功解鎖了256K超長上下文的深度感知,在長視頻時序感知上實現(xiàn)了幾乎無損的推理能力。
更具里程碑意義的是,這也是Keye系列首次解鎖Agent協(xié)作機(jī)制,在Code、Tool、Search等復(fù)雜場景下展現(xiàn)出了扎實的系統(tǒng)級協(xié)作與執(zhí)行潛力。
五大技術(shù)引擎重塑多模態(tài)底座
DSA首次落地多模態(tài),破解長視頻理解瓶頸
視頻理解的痛點,往往在于超長視覺上下文帶來的指數(shù)級計算開銷與核心信息的稀釋。
Keye-VL-2.0-30B-A3B在底層架構(gòu)上完成了關(guān)鍵跨越——首次在多模態(tài)理解場景中成功應(yīng)用了DSA(DeepSeek Sparse Attention)。
通過結(jié)合稀疏注意力與極具針對性的特征聚合,模型在處理長達(dá)小時級的視頻序列時,能夠有效進(jìn)行高噪環(huán)境下的信息提純,精準(zhǔn)捕捉關(guān)鍵幀并理清動態(tài)規(guī)律。
這一架構(gòu)優(yōu)勢在細(xì)粒度視頻時序理解最新基準(zhǔn)(TimeLens)中得到了極致驗證。
需要說明的是,該榜單論文官方僅公布了Gemini-2.5-Pro的成績,為了保證評測的嚴(yán)謹(jǐn)性,快手團(tuán)隊嚴(yán)格按照相同評測方式,在內(nèi)部同步測試了Gemini 3 Flash作為實測基線比對:
- 日常動作時序解析(Charades-TimeLens):模型以58.4的mIoU強(qiáng)勢對標(biāo)實測的最強(qiáng)視頻理解閉源標(biāo)桿Gemini 3 Flash(61.2)。
- 視頻動作定位(ActivityNet-TimeLens): 憑借58.5的mIoU,實現(xiàn)了對官方數(shù)據(jù)Gemini-2.5-Pro(58.1)以及實測數(shù)據(jù)Gemini 3 Flash(57.0)的全面超越。
- 高光時刻提取(QVHighlights-TimeLens):模型的mIoU達(dá)到70.1,與官方榜單的頂尖閉源模型并駕齊驅(qū),并大幅超過實測的Gemini 3 Flash(49.5)。
時序解析意味著厘清動作發(fā)生的精確邊界,并給出所屬視頻中的準(zhǔn)確時間。我們向Keye-VL-2.0-30B-A3B輸入了一段制作陶杯的工藝流程視頻。
【視頻請到公眾號查看】
面對繁復(fù)的手工動作,模型展現(xiàn)出了手術(shù)刀般的幀級判斷力,直接輸出了一份帶有精確時間戳的工藝全拆解:
- 方解石原料處理:用錘子將原石砸成小塊;放入竹篩中在溪流中反復(fù)沖洗去除雜質(zhì)。
- 方解石煅燒與制漿:放土窯加木炭煅燒至高溫(約950℃);開窯取出白色粉末;加水研磨制成細(xì)膩漿液(水飛工藝)。
- 陶土采集與處理:山地挖取紅褐色陶土;倒缸加水?dāng)嚢枞ルs質(zhì)。
- 茶杯坯體制作與裝飾:轉(zhuǎn)輪手工拉坯塑形;精細(xì)修整厚度形狀;底部貼方形印章款識并修整。
- 配釉與施釉:按比例稱取石英石長石等原料并加水?dāng)嚢柚茲{;坯體反復(fù)浸入釉漿后自然晾干。
- 燒制與成品展示:裝窯堆疊;燒柴升溫至1200℃;出窯清洗浸入陳茶水中氧化調(diào)整釉色;最終呈現(xiàn)開片、鐵足等釉色特征。
![]()
從挖土、煅燒、水飛到修坯、配釉、陳茶,全程極具專業(yè)壁壘的手工工序,模型不僅全部準(zhǔn)確識別,更將每一個工藝動作與視頻時間軸實現(xiàn)了毫秒級的完美咬合。
再來一段《王者榮耀》高燃對局的視頻。
【視頻請到公眾號查看】
當(dāng)接收到“請找出視頻中的高光時刻,并給出你的依據(jù),時間戳用[mm:ss]的形式來表示”的指令時,Keye-VL-2.0- 30B-A3B沒有陷入傳統(tǒng)AI“哪里有擊殺提示就截取哪里”或“只看畫面元素劇烈變化”的機(jī)械邏輯。
它的做法是基于視覺張力、音畫協(xié)同以及電競敘事的深刻理解,給出了極具玩家共鳴的精準(zhǔn)判定:
- 視覺與節(jié)奏的雙重爆發(fā)——模型判定依據(jù):模型敏銳捕捉到了畫面中最激烈的團(tuán)戰(zhàn)場景,不僅能精細(xì)識別“金色、紫色光效交織”的特效,還能準(zhǔn)確讀取“276”“132”等具體的動態(tài)傷害數(shù)值。它將這些視覺元素的密集程度作為戰(zhàn)斗節(jié)奏緊湊的直接證據(jù),展現(xiàn)了極強(qiáng)的動態(tài)視覺解析力。
- 音畫協(xié)同的戲劇張力構(gòu)建——模型判定依據(jù):模型并沒有局限于游戲畫面本身,跨模態(tài)捕捉到了底部的英文歌詞字幕。它成功理解了帶有燃向色彩的歌詞與激烈對局之間的關(guān)聯(lián),指出了這種“音畫協(xié)同”如何將視頻的戲劇張力推向高潮。
- “絕境翻盤”的情緒共鳴點——模型判定依據(jù):這是最體現(xiàn)模型深度的部分。它通過讀取畫面中的“27 vs 35”判定出己方劣勢的背景,結(jié)合團(tuán)戰(zhàn)的膠著狀態(tài),精準(zhǔn)提煉出“絕境翻盤”這一電競核心敘事節(jié)點。它證明了自己不僅能看懂畫面,更能切中游戲視頻背后的情緒感染力與觀賞價值。
- 全局視角的對比排他邏輯——模型判定依據(jù):模型的分析并沒有孤立存在,而是展現(xiàn)出了宏觀的全局視野。它主動將高光片段與此前的戰(zhàn)斗、追擊片段(00:00-00:16 / 00:17-00:58)進(jìn)行了全盤對比,從特效強(qiáng)度、節(jié)奏張力和敘事意義三個維度嚴(yán)密論證了該時段的不可替代性,邏輯閉環(huán)極具說服力。
![]()
為了更直觀地展現(xiàn)這種跨代際的領(lǐng)先,可以將其在核心視頻理解基準(zhǔn)上的表現(xiàn)進(jìn)行可視化對比。
如下圖所示,無論是TimeLens的細(xì)粒度動作錨定,還是在LongVideoBench上的綜合長時序解析,Keye-VL-2.0-30B-A3B都展現(xiàn)出了對同級別甚至200B+超大參數(shù)開源基座的顯著壓制力。
![]()
除此之外,模型還實現(xiàn)了極致的推理成本與專屬Infra訓(xùn)練系統(tǒng)重構(gòu)
作為30B級別的基座,Keye-VL-2.0-30B-A3B不僅在時序理解上顯著優(yōu)于超兩千億參數(shù)的開源模型,更在底層算力效能上實現(xiàn)了飛躍。
一方面是推理成本大幅攤薄,引入DSA架構(gòu)與系統(tǒng)級工程優(yōu)化后,模型長序列Prefill(預(yù)填充)階段成本降低了50%。
更重要的是,隨著輸入視頻上下文的拉長,傳統(tǒng)Full Attention的Decode計算量會呈指數(shù)級暴增,而快手團(tuán)隊基于DSA的Decode成本曲線展現(xiàn)出了極其平緩的增長態(tài)勢,為超長視頻的大規(guī)模落地提供了極具競爭力的低成本方案。
另一方面是破解長視頻訓(xùn)練瓶頸,快手打造了專為長視頻、變長序列服務(wù)的訓(xùn)練Infra:
- 通過可橫向擴(kuò)展的ExtraIO架構(gòu)將IO獨(dú)立部署、按需擴(kuò)容,消除視頻解碼與抽幀帶來的IO瓶頸;
- 采用ViT–LM異構(gòu)并行 + 兩級負(fù)載均衡 + ViT激活值零顯存優(yōu)化(Recompute/Offload),破解了長視頻、變長序列下計算/顯存的均衡難題;
- 基于FlashInfer、TileLang對變長序列模式下的DSA進(jìn)行深度調(diào)優(yōu),使得長序列訓(xùn)練性能相比基于開源方案適配的Baseline直接翻倍。
極致的細(xì)粒度感知與時序推理,實現(xiàn)視頻SOTA
基于強(qiáng)大的底層基礎(chǔ)架構(gòu),快手團(tuán)隊在“時空統(tǒng)一編碼”與“長時序特征聚合”上進(jìn)行了深度優(yōu)化。
相較于歷史版本,Keye-VL-2.0-30B-A3B的視頻理解能力實現(xiàn)了全方位躍升,不僅在當(dāng)前同尺寸模型中登頂SOTA,更在多項核心時序指標(biāo)上跨越了尺寸壁壘。
模型不僅能“看懂”畫面的靜態(tài)切片,更具備了強(qiáng)大的時序因果推理能力。
這一跨越式的進(jìn)化,在多項權(quán)威視頻理解榜單的最終定版實測中得到了極其有力的數(shù)據(jù)印證。
打破了“長上下文衰減”魔咒(VideoMME V2),也就是業(yè)界普遍面臨著的“輸入幀數(shù)越多,注意力越稀釋、準(zhǔn)確率越低”的痛點。
Keye-VL-2.0-30B-A3B徹底扭轉(zhuǎn)了這一趨勢——當(dāng)輸入視頻從64幀極限擴(kuò)展至512幀時,模型的平均準(zhǔn)確率(ACC)不僅未見衰減,反而從35.34%逆勢大幅飆升至42.44%
同時,代表復(fù)雜邏輯深度的非線性得分(Non-Liner Score)亦從18.54穩(wěn)步跨越至24.19。
這種反直覺表現(xiàn),完美驗證了其在超長序列下的絕對統(tǒng)治力。
超長視頻綜合理解(LongVideoBench)方面,當(dāng)模型面對長達(dá)數(shù)十分鐘甚至小時級的復(fù)雜視頻理解任務(wù)時,斬獲了74.10的高分,將同級別開源基座遠(yuǎn)遠(yuǎn)甩在身后,跨級逼近頂級閉源巨頭。
真正的長視頻理解,是對復(fù)雜劇情跌宕、空間跳躍與情感暗線的全面洞察。
我們向模型輸入了一段長達(dá)8分鐘、記錄“長白山云頂天宮雪雕重建”的紀(jì)錄片,要求其給出詳細(xì)的場景劃分與敘事總結(jié)。
【視頻請到公眾號查看】
面對這部充滿波折的群像短片,模型不僅精準(zhǔn)切分了8個核心場景,更展現(xiàn)出了驚人的“敘事解構(gòu)”能力:
- 空間與事件的精準(zhǔn)追蹤:從起初的圖紙分歧(00:18),到夜間大型造雪機(jī)進(jìn)場施工(01:29),再到通過航拍對比小鎮(zhèn)從“爛尾樓”變“繁華夜市”(02:48),模型精準(zhǔn)識別了所有場景跳躍;
- 災(zāi)難沖突的因果提取:在03:45節(jié)點,模型敏銳捕捉到了“天空陰沉、冰雪融化飛檐變鈍”的視覺細(xì)節(jié),結(jié)合旁白精準(zhǔn)總結(jié)出了核心劇情轉(zhuǎn)折:“百年不遇的冬雨導(dǎo)致雪體坍塌,團(tuán)隊陷入死局。”
- 情感與主題的深度升華:模型并沒有停留在“建雪雕”的表層,它提取了畫面中巨大的“振興東北”刻字,關(guān)聯(lián)了片中“老程盼女兒、小李回流家鄉(xiāng)”的人物背景,在總結(jié)中直指故事內(nèi)核:“極寒的溫度凍不住東北人的熱血,冰雪項目不僅是奇觀,更是承載著東北人振興家鄉(xiāng)、呼喚游子歸鄉(xiāng)的熾熱情感與現(xiàn)實路徑。”
![]()
這樣的表現(xiàn),已經(jīng)超越了視頻打標(biāo)員,成為了一位具備極高人文共情能力的“閱卷人”。
此外在全能視聽推理(MLVU & VideoMMMU)上,模型需要從微觀動作追蹤到宏觀跨學(xué)科視頻解析,結(jié)果在MLVU (82.80)與VideoMMMU (79.98)等多維高難榜單中均交出了傲視同儕的答卷。
Agent框架打通“感知-規(guī)劃-執(zhí)行”全鏈路
作為Keye家族邁向真實業(yè)務(wù)場景的關(guān)鍵一步,Keye-VL-2.0-30B-A3B首次在多模態(tài)基座中內(nèi)建了Agent協(xié)作機(jī)制。
面對復(fù)雜的多步任務(wù),模型跳出了傳統(tǒng)單輪對話的框架,著力構(gòu)建了一套相對穩(wěn)定、可靠的自動化調(diào)度基線。
Code Agent(代碼工程基線)方面,在業(yè)內(nèi)巨頭林立的代碼賽道,快手選擇務(wù)實地構(gòu)建多模態(tài)代碼能力的有效水位。
模型初步打通了基礎(chǔ)題的邏輯推演,并在真實代碼倉庫的解析上進(jìn)行了探索。
實測數(shù)據(jù)顯示,定版模型在LivecodeBench v6 (77.10)與OJBench (39.20)的算法評測中,不僅領(lǐng)先于同級別參數(shù)模型,甚至在基礎(chǔ)推演能力上超越了部分兩千億參數(shù)的開源基座。
在更貼近真實業(yè)務(wù)線的SWE-bench Verified任務(wù)中,模型也跑通了62.00的基線成績,初步具備了定位并修復(fù)代碼Issue的能力。
更重要的是,模型充分發(fā)揮了基座的視覺優(yōu)勢,在HTML前端生成(如視覺手稿直轉(zhuǎn)網(wǎng)頁)等極具業(yè)務(wù)價值的細(xì)分場景上,跑通了結(jié)合執(zhí)行反饋的自我糾錯閉環(huán)。
Tool Agent(工具調(diào)用與調(diào)度)方面,模型也展現(xiàn)出了扎實的意圖理解與接口調(diào)度能力。
這一能力在TAU2-Bench(82.58)、BFCL-V4 (65.72)以及多模態(tài)Agent測試集VITA-Bench (33.12)中得到了印證,其中在側(cè)重復(fù)雜多步調(diào)度的TAU2-Bench上,模型跨尺寸建立了顯著優(yōu)勢。
為了驗證其實際業(yè)務(wù)容錯率,我們向模型輸入了一段高度交織的復(fù)雜指令,要求其同時處理“查詢指定標(biāo)簽門店、測算經(jīng)緯度配送距離、篩選商品并最終創(chuàng)建酒店及配送訂單”。
面對這種極易導(dǎo)致模型崩潰的“多線程”需求,Keye-VL-2.0-30B-A3B展現(xiàn)出了極為冷靜的多步任務(wù)分解(Task Planning)能力。
![]()
它自主規(guī)劃并按序調(diào)用了get_delivery_store_info、longitude_latitude_to_distance、create_hotel_order等十余次API。
在長達(dá)數(shù)十輪的執(zhí)行流中,模型不僅準(zhǔn)確提取了上下文參數(shù)作為后續(xù)API的輸入?yún)?shù),更在底層跑通了容錯邏輯——
依靠強(qiáng)大的自我推理完成狀態(tài)自檢與策略調(diào)整,最終向用戶輸出了排版清晰、狀態(tài)明確的執(zhí)行結(jié)果。完美適應(yīng)了高度自動化的文本工作流。
MOPD專家合版,克服災(zāi)難性遺忘
在垂域能力拓展階段,為解決多任務(wù)學(xué)習(xí)的“災(zāi)難性遺忘”,快手團(tuán)隊創(chuàng)新性地引入了跨模態(tài)MOPD(多專家策略蒸餾/合并)技術(shù)。
通過分段re-tokenize方法,團(tuán)隊保證了多模態(tài)場景下序列的嚴(yán)格對齊。
在動態(tài)路由與參數(shù)融合的作用下,該方法有效整合了各垂域?qū)<夷P汀?/p>
在此基礎(chǔ)上,他們獨(dú)創(chuàng)了分桶優(yōu)勢縮放(Bucket Advantage Scaling)方法,從Token級別對結(jié)構(gòu)組織、教師表達(dá)、感知表征與推理運(yùn)算進(jìn)行細(xì)粒度建模,并在優(yōu)勢估計階段施加差異化縮放。
這一機(jī)制極大強(qiáng)化了核心的感知與推理信號,抑制了格式性、模板性Token的干擾。
同時,為釋放Dense Reward的優(yōu)勢,快手團(tuán)隊首次將MOPD引入重復(fù)崩潰治理,通過多粒度識別與精確定位,將原本模糊的負(fù)向反饋轉(zhuǎn)化為可追溯的優(yōu)化信號,顯著提升了長序列生成的魯棒性。
真正的多任務(wù)融合,不能以犧牲通用底座能力為代價。下圖是Keye-VL-2.0-30B-A3B最終定版在全維度基準(zhǔn)測試中的“全景成績單”:
![]()
得益于MOPD技術(shù)的有機(jī)融合,模型不僅在Video和Agent等核心陣地登頂,更在極度考驗邏輯的數(shù)學(xué)推理(Math & Reasoning)、STEM以及指令遵循(Instruction Following)等通用能力上迎來了全面爆發(fā)。
Context-RL與嚴(yán)苛數(shù)據(jù)引擎,構(gòu)筑推理的絕對可靠性
為了讓模型蛻變?yōu)椤皣?yán)密且實事求是的邏輯引擎”,快手團(tuán)隊在后訓(xùn)練(Post-Training)階段,量身定制了一套極具深度的多模態(tài)強(qiáng)化學(xué)習(xí)體系,核心建立在兩大基石之上。
一是創(chuàng)新獎勵信號,實現(xiàn)超幾何分布級別的事實性監(jiān)督
在視覺感知與多模態(tài)推理中,為了解決“可靠性難以評估”的痛點,在常規(guī)規(guī)則外,模型開創(chuàng)性引入了Context-RL獎勵機(jī)制
該機(jī)制利用混合模態(tài)的參考信息,構(gòu)建了極其稠密的細(xì)粒度獎勵信號,實現(xiàn)了超幾何分布級別的事實性監(jiān)督。
它強(qiáng)力壓制了多步推理、復(fù)雜學(xué)科(數(shù)學(xué)/醫(yī)療/代碼)場景下的幻覺傾向,迫使模型嚴(yán)格錨定輸入信息進(jìn)行毫無發(fā)散的可靠長程推演。
二是嚴(yán)苛的數(shù)據(jù)引擎,這里快手團(tuán)隊采取了極致的篩選與準(zhǔn)確率過濾手段。
高質(zhì)量獎勵必須依托純凈的數(shù)據(jù)引擎。
為此,他們設(shè)計了極為嚴(yán)格的數(shù)據(jù)篩選配比流程,并引入高效的準(zhǔn)確率過濾機(jī)制(Accuracy Filtering),實時剔除低質(zhì)量、邏輯斷層的樣本軌跡。
這種“高信噪比數(shù)據(jù)”與“高精度獎勵”的完美結(jié)合,徹底打破了RL訓(xùn)練中的作弊與坍塌,確保模型在長上下文推演中的決策穩(wěn)定性實現(xiàn)了質(zhì)的飛躍。
扎根真實業(yè)務(wù)生態(tài),驅(qū)動內(nèi)容與商業(yè)雙飛輪
評測榜單上的突破,從來不是Keye迭代的終點。
多模態(tài)理解大模型與Agent能力在各真實業(yè)務(wù)場景中的深度落地,才是快手在2026年乃至未來技術(shù)投入的重中之重。
告別空泛的行業(yè)熱詞堆砌,快手的全景布局既錨定行業(yè)通用能力的扎實基座,更聚焦最堅實的業(yè)務(wù)落地與真實收益,Keye-VL正在從下面的三個維度,全面重塑真實業(yè)務(wù)流。
多模態(tài)理解融入到核心業(yè)務(wù),拿到真實收益
多模態(tài)理解能力,是快手龐大內(nèi)容與商業(yè)生態(tài)邁向全面智能化的基石。
Keye-VL-2.0-30B-A3B正在將極具細(xì)粒度的長視頻感知與圖文解析能力,無縫融入到生成式推薦、內(nèi)容生態(tài)治理以及商業(yè)化定向投放等核心鏈路中。
目前,模型已在多個內(nèi)部高優(yōu)應(yīng)用場景率先落地。
它不僅能像人類一樣精準(zhǔn)捕捉視頻畫面的“弦外之音”與時序邏輯,極大提升了推薦系統(tǒng)的分發(fā)命中率,更在廣告營銷的精細(xì)化標(biāo)簽提取上,實打?qū)嵉厝〉昧孙@著的商業(yè)收益轉(zhuǎn)化。
通過Keye-VL,快手正在讓最前沿的算力與算法,真正成為反哺主營業(yè)務(wù)的增長引擎。
Video × Agent,重塑視頻素材生產(chǎn)范式
面向未來的智能生態(tài)演進(jìn)方向,Keye新解鎖的Agent協(xié)作機(jī)制正直接賦能龐大的創(chuàng)作者群體與商業(yè)生態(tài)。
快手會將“精準(zhǔn)多模態(tài)理解”與“Agent自動化調(diào)度”深度融合,打造端到端的全自動閉環(huán)工作流。
面對海量且高頻的短視頻業(yè)務(wù)訴求,模型不再僅僅是看懂內(nèi)容的“旁觀者”,化身為深入生產(chǎn)一線的“智能調(diào)度樞紐”。
從海量視頻庫中的智能檢索、關(guān)鍵高光切片提取,到基于邏輯演進(jìn)的自動化剪輯包裝,再到契合爆款邏輯的營銷文案生成,Keye-VL都極大降低了優(yōu)質(zhì)內(nèi)容的生產(chǎn)門檻,真正拉動生態(tài)生產(chǎn)力。
以30B為基石,構(gòu)建下一代智能基建壁壘
Keye-VL-2.0-30B-A3B的成功落地,是對快手從底層DSA算力優(yōu)化、海量數(shù)據(jù)飛輪到后訓(xùn)練Context-RL算法鏈路的有力驗證。
這不僅解決了當(dāng)下的業(yè)務(wù)痛點,更為下一階段的研發(fā)掃清了工程障礙。
他們將以30B版本的成功經(jīng)驗為跳板,穩(wěn)步向真正的原生多模態(tài)(Native Multimodal)與端到端深度融合挺進(jìn)。
快手拒絕盲目的跟風(fēng)炒作,通過一次次扎實的業(yè)務(wù)驗證與版本迭代,持續(xù)構(gòu)筑具有深度的行業(yè)技術(shù)影響力,沉淀不可替代的核心基建壁壘。
從突破算力瓶頸,到深入業(yè)務(wù)一線。跑分不是終點,落地才是
Keye-VL-2.0-30B-A3B,現(xiàn)已就緒。
![]()
致謝:本文案例演示的視頻素材源自快手平臺@愛德黎子、@山白、@南翔、@穆穆(鬼神)
開源主頁與模型權(quán)重已同步上線
Hugging Face: https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B
GitHub: https://github.com/Kwai-Keye/Keye
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.