網易首頁 > 網易號 > 正文申請入駐

又一大廠殺入AI視頻生成！5分鐘敘事角色不崩，聲音不亂，秒出片

2026-06-05 21:56:27　來源: 智東西

北京舉報

分享至

AI視頻賽道，突然殺出了一匹意料之外的黑馬。

智東西6月5日報道，6月3日，京東首次開源長音視頻生成框架JoyAI-Echo。它直擊長視頻生成中的角色一致性、聲音穩定性和生成速度三大核心難題，一舉在多個核心指標上超越行業標桿模型。

▲JoyAI-Echo在Hugging Face的頁面截圖

根據公開評測結果，JoyAI-Echo在跨鏡頭一致性、語音準確率、用戶偏好等關鍵指標上均取得領先表現，與業內主流長視頻生成模型相比優勢明顯，出道即躋身全球第一梯隊。

2026年的AI視頻賽道，競爭已進入白熱化階段。OpenAI的Sora在3月官宣關停，給行業留出空間，各路玩家正圍繞多鏡頭敘事、物理模擬、4K畫質等維度激烈角逐。

就在這個關鍵節點，強勢入局的京東一上來就瞄準了行業難啃的硬骨頭——分鐘級長視頻的連貫生成，無疑為行業再添一把火。

AI視頻的“開盲盒”時代，真的要結束了。

GitHub地址：
https://github.com/jd-opensource/JoyAI-Echo
Hugging Face地址：
https://huggingface.co/jdopensource/JoyAI-Echo
項目主頁：
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

一、出道即沖進第一梯隊：JoyAI-Echo有多強？

京東此次開源的JoyAI-Echo，到底有多強？

我們可以先看一組硬核數據。

研究團隊構建了一個極為嚴苛的評測集：100個獨立故事劇本，總計3000個分鏡，每個故事平均30個鏡頭，涵蓋原創角色與IP角色、動畫與真人實拍等多種復雜場景。

在這樣的“統考”中，JoyAI-Echo在跨鏡頭一致性、角色人臉+人體一致性、人聲音色一致性、美學畫質、成像清晰度、文本一致性等指標上全面領跑。

尤其值得關注的是語音準確率，飆升至0.8646，達到行業領先水平，這意味著以往AI視頻中“口型對不上、臺詞胡編”的痛點被大幅緩解。

在用戶盲測中，JoyAI-Echo的音頻質量偏好高達81.7%，提示詞遵循偏好達到80.6%，視覺美學偏好63.6%，IP角色一致性偏好59.4%，各項指標均獲得用戶高度認可。

▲JoyAI-Echo的盲測優于同行標桿

技術參數之外，更讓人印象深刻的是JoyAI-Echo的生成案例。

在京東官方展示的《居家一日》案例中，長達近5分鐘的敘事里，男主角的外貌特征、面部細節、說話音色始終保持穩定，觀眾不會產生“這是另一個人”的出戲感。

▲JoyAI-Echo生成的視頻

另一個案例《極限拉力》則展現了高速運動場景下的穩定性。賽車飛馳時，賽道環境、車身涂裝等細節沒有出現扭曲或閃爍。在多角色、多道具的復雜敘事場景中，JoyAI-Echo也能保持角色長相、服裝、道具和環境的持續穩定。

▲JoyAI-Echo生成的視頻

再看看巫師城堡、倉庫對峙等復雜敘事場景，在這些多角色、多道具、多環境的長鏡頭序列中，JoyAI-Echo生成視頻沒有出現“換裝”“變臉”“道具丟失”等常見問題。

▲JoyAI-Echo生成的視頻

這些案例有力證明，JoyAI-Echo是一個能夠駕馭復雜敘事、理解物理世界、真正具備生產能力的創作工具。

二、長視頻為什么難？四項創新破解行業“不可能三角”

為什么長視頻生成如此之難？核心在于一個“不可能三角”：長時長、高一致性、快速度，三者似乎總是無法兼得。

當視頻拉長到分鐘級，誤差會像滾雪球一樣累積。同一個角色，上一個鏡頭和下一個鏡頭長得不一樣；說話人的音色忽高忽低，甚至突然變聲。渲染速度慢如蝸牛，等幾分鐘才能出結果；修改成本高，哪怕只改一點點也要從頭到尾重新生成整個視頻。

這些問題都導致AI長視頻長期停留在“玩具”階段，很難真正投入生產使用。

JoyAI-Echo用四項實打實的技術創新，逐一擊破這些痛點。

1、角色總變臉：跨模態音視頻記憶庫

行業長期難以解決“上一鏡頭和下一鏡頭不是同一個人”的問題。根本原因在于，傳統模型在逐鏡生成時，缺乏對歷史生成內容的顯式記憶機制，每次生成都像“失憶”一樣重新開始。

JoyAI-Echo的破局之道是“跨模態音視頻記憶庫”。框架內置了一個專門的記憶庫，能夠持續保存并精準調用角色的視覺特征和聽覺特征。在長達5分鐘的多鏡頭生成中，這個記憶庫就像導演手中的“角色檔案”，每次調用都能保證輸出的一致性，從而解決了“同一個人演著演變成另一個人”的尷尬。

▲JoyAI-Echo跨模態音視頻記憶庫機制

2、生成太慢：記憶驅動后訓練，速度提升7.5倍

長視頻生成往往意味著巨大的推理成本。JoyAI-Echo創新性地設計了三段式后訓練流水線：基于記憶的有監督微調（SFT）→ 跨模態人類反饋強化學習（RLHF）→ 基于記憶的分布匹配蒸餾（DMD）。

其中DMD技術尤為關鍵，它像一個高效的“知識壓縮器”，讓輕量級的“學生模型”學習原復雜“教師模型”的生成路徑。最終，這項技術將多步擴散師生蒸餾壓縮為8步快速推理模型，為JoyAI-Echo帶來了約7.5倍的推理速度提升，從而讓長視頻生成從“等半天”變成“秒出片”。

3、修改成本高：Director Agent導演智能體

傳統視頻模型工作流為輸入提示詞，一次性出結果，讓創作者陷入“抽卡”困境。如果生成不滿意只能重來，修改一個鏡頭就要重跑整條視頻。

JoyAI-Echo引入Director Agent導演智能體，這也是最令人驚喜的交互功能。你可以用自然語言告訴它你的需求，比如“把第三場戲的咖啡館背景換成圖書館”。它會自動理解并執行：拆解需求形成劇本和分鏡，調用模型生成視頻，檢查生成結果。它只重新生成有問題的局部鏡頭，整條視頻不用重來。

該智能體將長視頻生成劃分為規劃、生成、評審三個階段。智能體管控兩類記憶：固定記憶從角色參考圖/參考音頻/開篇鏡頭提取，全片鎖定人物外貌音色基準；動態記憶根據劇情語義篩選關聯歷史鏡頭，避免無關素材干擾。修改后的內容存入歷史庫，后續鏡頭自動讀取新版畫面特征，保障劇情連貫。

▲導演智能體工作流程概述

4、高清輸出難：輕量化實時超分

原生720p生成視頻時序連貫但細節不足。為了滿足專業生產需求，JoyAI-Echo配套了一個專門的實時超分模塊，在幾乎不增加延遲的情況下，將原生720p的視頻實時提升至最高1472×2560的高清分辨率。

該模塊基于87.6萬條1080P~4K高質量音視頻片段訓練，通過DMD蒸餾得到單步極速學生模型，在流式生成的延遲約束下兼顧畫面清晰度。

總的來說，JoyAI-Echo首次一站式同時實現遠距離跨模態一致性、分鐘級視頻實時生成、對話式交互編輯、高清畫質輸出四大能力，四項性能互不妥協，開創交互式視頻生成全新范式。

三、AI視頻進入長視頻時代：哪些行業將率先受益？

長視頻生成的重要意義，并不只是讓視頻變得更長，還讓AI首次具備了持續敘事能力。

但當角色、場景、對白需要跨越幾十個鏡頭持續存在時，生成難度會指數級上升。一旦角色一致性、音色穩定性和生成效率問題得到改善，長視頻生成的應用空間將迅速打開。

以JoyAI-Echo為代表的長視頻生成模型框架，至少有望為以下五大應用場景帶來新的可能性：

1、虛擬動漫與故事創作：創作者可以像導演一樣，用自然語言指揮AI生成連貫的動漫劇集或繪本視頻，角色形象和聲音全程統一，無需逐幀手繪。

2、數字人直播與短劇生產：數字人主播可以在長達數分鐘的直播或短劇中保持音色、口型、表情的高度一致，大幅提升觀眾沉浸感。

3、品牌營銷內容快速迭代：營銷團隊只需修改臺詞或局部鏡頭，即可生成多條不同版本的品牌故事視頻，實現秒級改片、分鐘級上新。

4、影視前期預演與分鏡制作：導演可以用JoyAI-Echo快速生成分鏡預覽視頻，提前驗證鏡頭語言和敘事節奏，大幅降低實拍試錯成本。

5、互動教育課件與游戲劇情動畫：教育機構和游戲開發者可以動態生成連貫的劇情動畫，根據用戶的選擇實時調整后續內容，實現個性化敘事。

更重要的是，京東選擇將代碼與模型權重全部開源。

全球開發者都可以基于JoyAI-Echo進行二次開發、微調和研究，推動長視頻生成從單一模型競爭走向產業生態競爭。中小團隊和個人創作者可以直接使用這一世界級水平的模型，AI視頻創作的“平民化”時代或將真正到來。

從京東的這次開源動作來看，落點不只是技術榜單的排名，更是未來AI內容生產基礎設施的話語權。誰能成為全球開發者手里最順手的視頻生產工具，誰就有望占據未來智能化數字內容生態網絡的主導地位。

結語：開源即格局，打開視頻生成新局面

JoyAI-Echo的開源發布，不僅標志著京東在長視頻生成領域進入全球第一梯隊，更用實打實的技術手段為長視頻生成的“不可能三角”交出了一份極具工程參考價值的答卷。

當AI長視頻不再受制于換臉、失音和漫長的渲染等待，當創作者可以像和導演聊天一樣，用自然語言隨時微調、重繪局部分鏡，高一致性、高畫質、可交互的“長視頻時代”便不再遙不可及。

目前，JoyAI-Echo的項目主頁與GitHub倉庫均已正式向全球開發者敞開大門。這場視頻生成范式革命，才剛剛拉開序幕。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.