AI視頻賽道,突然殺出了一匹意料之外的黑馬。
智東西6月5日報道,6月3日,京東首次開源長音視頻生成框架JoyAI-Echo。它直擊長視頻生成中的角色一致性、聲音穩定性和生成速度三大核心難題,一舉在多個核心指標上超越行業標桿模型。
![]()
▲JoyAI-Echo在Hugging Face的頁面截圖
根據公開評測結果,JoyAI-Echo在跨鏡頭一致性、語音準確率、用戶偏好等關鍵指標上均取得領先表現,與業內主流長視頻生成模型相比優勢明顯,出道即躋身全球第一梯隊。
2026年的AI視頻賽道,競爭已進入白熱化階段。OpenAI的Sora在3月官宣關停,給行業留出空間,各路玩家正圍繞多鏡頭敘事、物理模擬、4K畫質等維度激烈角逐。
就在這個關鍵節點,強勢入局的京東一上來就瞄準了行業難啃的硬骨頭——分鐘級長視頻的連貫生成,無疑為行業再添一把火。
AI視頻的“開盲盒”時代,真的要結束了。
GitHub地址:
https://github.com/jd-opensource/JoyAI-Echo
Hugging Face地址:
https://huggingface.co/jdopensource/JoyAI-Echo
項目主頁:
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
一、出道即沖進第一梯隊:JoyAI-Echo有多強?
京東此次開源的JoyAI-Echo,到底有多強?
我們可以先看一組硬核數據。
研究團隊構建了一個極為嚴苛的評測集:100個獨立故事劇本,總計3000個分鏡,每個故事平均30個鏡頭,涵蓋原創角色與IP角色、動畫與真人實拍等多種復雜場景。
在這樣的“統考”中,JoyAI-Echo在跨鏡頭一致性、角色人臉+人體一致性、人聲音色一致性、美學畫質、成像清晰度、文本一致性等指標上全面領跑。
尤其值得關注的是語音準確率,飆升至0.8646,達到行業領先水平,這意味著以往AI視頻中“口型對不上、臺詞胡編”的痛點被大幅緩解。
在用戶盲測中,JoyAI-Echo的音頻質量偏好高達81.7%,提示詞遵循偏好達到80.6%,視覺美學偏好63.6%,IP角色一致性偏好59.4%,各項指標均獲得用戶高度認可。
![]()
▲JoyAI-Echo的盲測優于同行標桿
技術參數之外,更讓人印象深刻的是JoyAI-Echo的生成案例。
在京東官方展示的《居家一日》案例中,長達近5分鐘的敘事里,男主角的外貌特征、面部細節、說話音色始終保持穩定,觀眾不會產生“這是另一個人”的出戲感。
![]()
▲JoyAI-Echo生成的視頻
另一個案例《極限拉力》則展現了高速運動場景下的穩定性。賽車飛馳時,賽道環境、車身涂裝等細節沒有出現扭曲或閃爍。在多角色、多道具的復雜敘事場景中,JoyAI-Echo也能保持角色長相、服裝、道具和環境的持續穩定。
![]()
▲JoyAI-Echo生成的視頻
再看看巫師城堡、倉庫對峙等復雜敘事場景,在這些多角色、多道具、多環境的長鏡頭序列中,JoyAI-Echo生成視頻沒有出現“換裝”“變臉”“道具丟失”等常見問題。
![]()
▲JoyAI-Echo生成的視頻
這些案例有力證明,JoyAI-Echo是一個能夠駕馭復雜敘事、理解物理世界、真正具備生產能力的創作工具。
二、長視頻為什么難?四項創新破解行業“不可能三角”
為什么長視頻生成如此之難?核心在于一個“不可能三角”:長時長、高一致性、快速度,三者似乎總是無法兼得。
當視頻拉長到分鐘級,誤差會像滾雪球一樣累積。同一個角色,上一個鏡頭和下一個鏡頭長得不一樣;說話人的音色忽高忽低,甚至突然變聲。渲染速度慢如蝸牛,等幾分鐘才能出結果;修改成本高,哪怕只改一點點也要從頭到尾重新生成整個視頻。
這些問題都導致AI長視頻長期停留在“玩具”階段,很難真正投入生產使用。
JoyAI-Echo用四項實打實的技術創新,逐一擊破這些痛點。
1、角色總變臉:跨模態音視頻記憶庫
行業長期難以解決“上一鏡頭和下一鏡頭不是同一個人”的問題。根本原因在于,傳統模型在逐鏡生成時,缺乏對歷史生成內容的顯式記憶機制,每次生成都像“失憶”一樣重新開始。
JoyAI-Echo的破局之道是“跨模態音視頻記憶庫”。框架內置了一個專門的記憶庫,能夠持續保存并精準調用角色的視覺特征和聽覺特征。在長達5分鐘的多鏡頭生成中,這個記憶庫就像導演手中的“角色檔案”,每次調用都能保證輸出的一致性,從而解決了“同一個人演著演變成另一個人”的尷尬。
![]()
▲JoyAI-Echo跨模態音視頻記憶庫機制
2、生成太慢:記憶驅動后訓練,速度提升7.5倍
長視頻生成往往意味著巨大的推理成本。JoyAI-Echo創新性地設計了三段式后訓練流水線:基于記憶的有監督微調(SFT)→ 跨模態人類反饋強化學習(RLHF)→ 基于記憶的分布匹配蒸餾(DMD)。
其中DMD技術尤為關鍵,它像一個高效的“知識壓縮器”,讓輕量級的“學生模型”學習原復雜“教師模型”的生成路徑。最終,這項技術將多步擴散師生蒸餾壓縮為8步快速推理模型,為JoyAI-Echo帶來了約7.5倍的推理速度提升,從而讓長視頻生成從“等半天”變成“秒出片”。
3、修改成本高:Director Agent導演智能體
傳統視頻模型工作流為輸入提示詞,一次性出結果,讓創作者陷入“抽卡”困境。如果生成不滿意只能重來,修改一個鏡頭就要重跑整條視頻。
JoyAI-Echo引入Director Agent導演智能體,這也是最令人驚喜的交互功能。你可以用自然語言告訴它你的需求,比如“把第三場戲的咖啡館背景換成圖書館”。它會自動理解并執行:拆解需求形成劇本和分鏡,調用模型生成視頻,檢查生成結果。它只重新生成有問題的局部鏡頭,整條視頻不用重來。
該智能體將長視頻生成劃分為規劃、生成、評審三個階段。智能體管控兩類記憶:固定記憶從角色參考圖/參考音頻/開篇鏡頭提取,全片鎖定人物外貌音色基準;動態記憶根據劇情語義篩選關聯歷史鏡頭,避免無關素材干擾。修改后的內容存入歷史庫,后續鏡頭自動讀取新版畫面特征,保障劇情連貫。
![]()
▲導演智能體工作流程概述
4、高清輸出難:輕量化實時超分
原生720p生成視頻時序連貫但細節不足。為了滿足專業生產需求,JoyAI-Echo配套了一個專門的實時超分模塊,在幾乎不增加延遲的情況下,將原生720p的視頻實時提升至最高1472×2560的高清分辨率。
該模塊基于87.6萬條1080P~4K高質量音視頻片段訓練,通過DMD蒸餾得到單步極速學生模型,在流式生成的延遲約束下兼顧畫面清晰度。
總的來說,JoyAI-Echo首次一站式同時實現遠距離跨模態一致性、分鐘級視頻實時生成、對話式交互編輯、高清畫質輸出四大能力,四項性能互不妥協,開創交互式視頻生成全新范式。
三、AI視頻進入長視頻時代:哪些行業將率先受益?
長視頻生成的重要意義,并不只是讓視頻變得更長,還讓AI首次具備了持續敘事能力。
但當角色、場景、對白需要跨越幾十個鏡頭持續存在時,生成難度會指數級上升。一旦角色一致性、音色穩定性和生成效率問題得到改善,長視頻生成的應用空間將迅速打開。
以JoyAI-Echo為代表的長視頻生成模型框架,至少有望為以下五大應用場景帶來新的可能性:
1、虛擬動漫與故事創作:創作者可以像導演一樣,用自然語言指揮AI生成連貫的動漫劇集或繪本視頻,角色形象和聲音全程統一,無需逐幀手繪。
2、數字人直播與短劇生產:數字人主播可以在長達數分鐘的直播或短劇中保持音色、口型、表情的高度一致,大幅提升觀眾沉浸感。
3、品牌營銷內容快速迭代:營銷團隊只需修改臺詞或局部鏡頭,即可生成多條不同版本的品牌故事視頻,實現秒級改片、分鐘級上新。
4、影視前期預演與分鏡制作:導演可以用JoyAI-Echo快速生成分鏡預覽視頻,提前驗證鏡頭語言和敘事節奏,大幅降低實拍試錯成本。
5、互動教育課件與游戲劇情動畫:教育機構和游戲開發者可以動態生成連貫的劇情動畫,根據用戶的選擇實時調整后續內容,實現個性化敘事。
更重要的是,京東選擇將代碼與模型權重全部開源。
全球開發者都可以基于JoyAI-Echo進行二次開發、微調和研究,推動長視頻生成從單一模型競爭走向產業生態競爭。中小團隊和個人創作者可以直接使用這一世界級水平的模型,AI視頻創作的“平民化”時代或將真正到來。
從京東的這次開源動作來看,落點不只是技術榜單的排名,更是未來AI內容生產基礎設施的話語權。誰能成為全球開發者手里最順手的視頻生產工具,誰就有望占據未來智能化數字內容生態網絡的主導地位。
結語:開源即格局,打開視頻生成新局面
JoyAI-Echo的開源發布,不僅標志著京東在長視頻生成領域進入全球第一梯隊,更用實打實的技術手段為長視頻生成的“不可能三角”交出了一份極具工程參考價值的答卷。
當AI長視頻不再受制于換臉、失音和漫長的渲染等待,當創作者可以像和導演聊天一樣,用自然語言隨時微調、重繪局部分鏡,高一致性、高畫質、可交互的“長視頻時代”便不再遙不可及。
目前,JoyAI-Echo的項目主頁與GitHub倉庫均已正式向全球開發者敞開大門。這場視頻生成范式革命,才剛剛拉開序幕。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.