![]()
有消息稱,字節(jié)跳動視頻生成模型Seedance 2.1將于近期發(fā)布,預(yù)計生成效果較2.0版本提升20%。字節(jié)對字母AI表示,此消息為假消息。
雖然Seedance 2.1未必會于近期發(fā)布,但是Seedance 2.0在海外熱度大漲卻是真的。
原因在于,周末,一篇標(biāo)題為《中國人工智能企業(yè)在視頻生成競賽中領(lǐng)跑美國對手》(Chinese AI groups pull ahead of US rivals in video generation race)的文章在海外刷屏了。
文章以Seedance 2.0和可靈3.0為核心論據(jù),得出了一個讓人意外的結(jié)論“中國在AI視頻生成領(lǐng)域,不僅領(lǐng)先于美國,而且這個優(yōu)勢還將永遠(yuǎn)保持下去。”
![]()
這個判斷聽起來多少有點反直覺,它更像是一種對中國AI的吹捧。畢竟過去幾年,AI行業(yè)從來都是硅谷先推出某種產(chǎn)品,然后才有中國類似的產(chǎn)品,這點我們有目共睹。
但閱讀完外媒的觀點后我發(fā)現(xiàn),確實是我想的太片面了,中國AI視頻生成這塊,還真就領(lǐng)先于美國。
文章中特地采訪了幾位美國AI創(chuàng)業(yè)者,以及使用AI視頻生成技術(shù)的電影制作人,結(jié)果就是,大家一致認(rèn)為中國的AI視頻工具已經(jīng)全面超越了美國同行。
更關(guān)鍵的是,這種領(lǐng)先不是那種階段性的技術(shù)領(lǐng)先,而是一種全面領(lǐng)先,從數(shù)據(jù)到落地,每一個環(huán)節(jié)都領(lǐng)先。
不光如此,這個領(lǐng)先是那種“無法被超越”的領(lǐng)先。也就是說,這個領(lǐng)先地位會一直保持下去。
遙遙領(lǐng)先成真了?
01
中國AI為何將永遠(yuǎn)領(lǐng)先于美國AI?
文章的一個論據(jù)是,在AI視頻生成領(lǐng)域,算法層面的差距正在快速縮小。
當(dāng)前各家公司在技術(shù)架構(gòu)上已經(jīng)“大差不差”了。Transformer、擴(kuò)散模型、時空注意力機(jī)制,這些底層技術(shù)路線已經(jīng)相對透明。
所以關(guān)鍵問題就在于,誰掌握的訓(xùn)練數(shù)據(jù)質(zhì)量更高、數(shù)量更多。
這正好撞上了字節(jié)和快手最擅長的地方。 抖音、快手本來就是全球最大的視頻生產(chǎn)機(jī)器之一。
更重要的是,這些數(shù)據(jù)帶有完整的用戶行為標(biāo)注。
哪些視頻被點贊收藏轉(zhuǎn)發(fā)、哪些視頻完播率高,后臺數(shù)據(jù)一目了然。
而且這些標(biāo)注不需要人工打標(biāo),它都是用戶真實行為自然生成的。這種帶標(biāo)注的高質(zhì)量數(shù)據(jù),你在市場上花錢都不一定買得到的。
相比之下,OpenAI和Anthropic是沒有視頻數(shù)據(jù)積累的。
OpenAI在推出Sora時,主要依賴的是從互聯(lián)網(wǎng)爬取的公開視頻數(shù)據(jù),以及部分授權(quán)的影視素材。
問題就是,互聯(lián)網(wǎng)上的公開視頻往往質(zhì)量參差不齊,有大量的重復(fù)內(nèi)容、低質(zhì)量內(nèi)容,甚至是帶有水印和廣告的二次加工內(nèi)容。
所以在訓(xùn)練過程中,經(jīng)常出現(xiàn)事倍功半的情況。
在全球評測平臺Artificial Analysis上,字節(jié)的Seedance 2.0、快手的可靈3.0,與阿里的HappyHorse一起,這三款中國工具包攬了文生視頻和圖生視頻榜單的前幾名。
這個榜單是由真實用戶投票產(chǎn)生的,這也就是說,大家都覺得這三家AI視頻生成的內(nèi)容好看。
雖然谷歌既有Youtube作為數(shù)據(jù)源,也有視頻生成模型Veo 3。
但谷歌的問題就在于約束太多,Youtube上視頻時長又普遍超過5分鐘,但是現(xiàn)在的GPU還沒辦法容得下那么長、那么高清的視頻作為訓(xùn)練數(shù)據(jù),這會導(dǎo)致模型在訓(xùn)練過程中出現(xiàn)故障。
這就導(dǎo)致Veo 3的市場反響并沒有很好,低于Seedance 2.0和可靈3.0這樣的中國AI視頻生成模型。
Director AI創(chuàng)始人Ben Chiang表示。“我們嘗試過的大多數(shù)美國模型,但是在視頻生成方面表現(xiàn)都不夠好”。所以他目前主要使用可靈、Seedance 2.0和海螺等中國工具進(jìn)行創(chuàng)作。
獨(dú)立AI電影制作人George Won表示“Seedance 2.0是一個改變游戲規(guī)則的工具。它能處理激進(jìn)的鏡頭角度和速度,而不會丟失角色的面部細(xì)節(jié)或光影對比。大多數(shù)AI模型在快速運(yùn)動時會開始搖晃或漂移。”
![]()
而且這種數(shù)據(jù)優(yōu)勢還能讓產(chǎn)品進(jìn)行“自我強(qiáng)化”。
字節(jié)已經(jīng)將Seedance 2.0整合進(jìn)了剪映等創(chuàng)作工具,因此字節(jié)每天還能獲得超過5000萬條生成視頻的反饋數(shù)據(jù)。
這樣一來,字節(jié)就能知道說“這條視頻是用戶滿意的,這條是用戶不滿意的”。
每收到一條這樣的反饋,下一代Seedance產(chǎn)品的發(fā)展方向就更明確一點。
這種持續(xù)的、大規(guī)模的、真實場景下的反饋循環(huán),同樣也是OpenAI和Anthropic那樣的實驗室環(huán)境無法比擬的。
即便投入再多資源,也很難在短期內(nèi)建立起類似的數(shù)據(jù)飛輪。
技術(shù)可以追趕,算法可以模仿,但生態(tài)和數(shù)據(jù)的積累需要時間,需要用戶基礎(chǔ),需要一個完整的產(chǎn)品閉環(huán)。
02
落地場景
企業(yè)發(fā)展AI視頻,它得有一個“目的”。
數(shù)據(jù)優(yōu)勢只是起點,真正讓技術(shù)變成競爭力的,是找到能賺錢的應(yīng)用場景。有了落地場景,企業(yè)才能有動力去發(fā)展AI視頻生成。
在這個維度上,字節(jié)和快手同樣優(yōu)于美國AI。
第一個大規(guī)模落地的場景是電商視頻。
過去,為一個商品拍攝一條專業(yè)視頻的成本高達(dá)數(shù)千元。包括攝影師、燈光師、場地租賃、模特費(fèi)用、后期剪輯等等。
對于大多數(shù)中小商家來說,一個普通的淘寶店鋪可能有幾百個商品,全拍下來至少幾十萬元成本。
AI視頻生成技術(shù)改變了這一現(xiàn)狀。
視頻基礎(chǔ)設(shè)施公司Firework的CEO Vincent Yang表示“一家零售商要求我們?yōu)槠洚a(chǎn)品頁面創(chuàng)建10萬個視頻。如果沒有AI,這在成本上是完全不可行的。現(xiàn)在,每個產(chǎn)品都可以擁有自己的視頻,甚至可以針對不同客戶定制多個版本。”
數(shù)據(jù)顯示,帶有視頻的商品頁面轉(zhuǎn)化率比純圖文頁面高出30%到80%,而且抖音和快手本身就是中國最大的電商直播和短視頻帶貨平臺之一。
AI生成好了視頻,出門右轉(zhuǎn)就能直接投放。
阿里的HappyHorse模型也明確將電商視頻作為核心落地場景。它支持商品展示短視頻、虛擬主播口播視頻的批量生成。一個商家可以上傳商品圖片和簡單的文字描述,系統(tǒng)就能自動生成多個版本的帶貨視頻,每個版本針對不同的目標(biāo)人群,使用不同的話術(shù)和展示方式。
![]()
第二個場景是廣告。
傳統(tǒng)TVC(電視商業(yè)廣告)制作周期太長了。
一條30秒的品牌廣告,從創(chuàng)意策劃到拍攝制作,往往需要好幾周。
有了視頻生成模型,幾分鐘就能生成幾十個不同版本的廣告創(chuàng)意。
第三個場景是短劇。
AI短劇在2026年迎來了爆發(fā)式增長。數(shù)據(jù)顯示,2026年3月AI短劇在播數(shù)量較1月增長了138%,遠(yuǎn)超傳統(tǒng)影視內(nèi)容的制作速度。
通過AI視頻生成,一個小團(tuán)隊甚至個人創(chuàng)作者,幾天內(nèi)就可以創(chuàng)作出來一部短劇。
還沒完,字節(jié)旗下的紅果短劇平臺還接入了“識圖找同款”功能。
這個功能很好理解,你看短劇的時候,如果對劇中角色的穿搭、場景中的家具、門口停的汽車感興趣,可以直接點擊識圖,系統(tǒng)會推薦同款商品,直接下單購買。
相當(dāng)于是把短劇變成了一個可以帶來轉(zhuǎn)化的商業(yè)場景。
反觀美國市場,雖然有Netflix、YouTube等內(nèi)容平臺,但沒有任何落地和轉(zhuǎn)化。
美國的AI視頻工具更多停留在創(chuàng)意實驗階段,唯一的商業(yè)落地場景就是訂閱會員。
而且就產(chǎn)品功能上來說,也是中國視頻生成模型更適合商業(yè)落地。
Seedance 2.0可以把多張素材照片、視頻、聲音都放進(jìn)同一個AI視頻里,Sora就不行,只能通過給模型指定一張圖和文字來生成視頻。
這不是因為Sora的技術(shù)不夠好,而是因為它缺少一個完整的商業(yè)生態(tài)來承接這些技術(shù)能力。
03
算力鴻溝
但中國視頻AI也有一道繞不過去的坎,那就是算力。
美國頭部AI是視算力為黃金,收割市面上能買到的所有算力。
Anthropic近期簽訂的算力協(xié)議總計超過10吉瓦。
這個數(shù)字包括租下SpaceX Colossus 1數(shù)據(jù)中心的全部算力,涵蓋22萬張英偉達(dá)GPU;與亞馬遜的5吉瓦協(xié)議;以及與谷歌和博通的3.5吉瓦協(xié)議。
OpenAI同樣如此。
通過與微軟的深度合作,OpenAI獲得了數(shù)十萬張高端GPU的使用權(quán),微軟還為OpenAI專門建設(shè)了多個超大規(guī)模數(shù)據(jù)中心。
相比之下,雖然中國企業(yè)在算法效率優(yōu)化上取得了顯著進(jìn)展,但在絕對算力規(guī)模上仍存在差距。
根據(jù)外媒統(tǒng)計,中美在AI算力上的差距在2023年時約為3倍,到2026年初已經(jīng)擴(kuò)大到8倍左右。
除了算力,中國AI還有其他難題。
第一個就是版權(quán)了。
![]()
以Seedance 2.0為例,在剛發(fā)布一個月左右,迪士尼、華納兄弟、派拉蒙、Skydance、Netflix等6家好萊塢巨頭聯(lián)合向字節(jié)發(fā)送停止侵權(quán)函,他們稱Seedance 2.0在訓(xùn)練階段,未經(jīng)授權(quán)大規(guī)模使用受版權(quán)保護(hù)的影視素材。
隨后,字節(jié)緊急暫停原定于3月中旬的Seedance 2.0全球發(fā)布計劃。
如果你從2月份一直使用Seedance 2.0到現(xiàn)在就會發(fā)現(xiàn),以前可以生成的IP角色,現(xiàn)在都不能使用了,轉(zhuǎn)而只能使用“路人”形象。
第二個是商業(yè)化門檻正在抬高。
以Sora為代表的美國視頻生成AI,經(jīng)常會因為使用條款拒絕生成請求,中國工具更寬限,而且價格也更便宜。
但這也為中國AI公司們帶來了”幸福的煩惱“。
Seedance 2.0自2月以來使用需求激增,一些用戶已經(jīng)遇到額度受限和排隊時間變長的問題。
外媒稱,字節(jié)對部分美國企業(yè)客戶采取了更重的商業(yè)化方式,要求客戶預(yù)先支付約200萬美元,用于換取模型訪問權(quán)限和使用額度。
快手方面也是一樣的,他們正在拆分可靈業(yè)務(wù),未來可能推動可靈單獨(dú)上市。
這說明可靈是獨(dú)立業(yè)務(wù),有比快手主體更強(qiáng)的增長故事。
增長故事說得越大,賬就越要算得清楚。
不過AI視頻的成本更高一些。用戶生成一段幾秒鐘的視頻,背后消耗的算力遠(yuǎn)高于生成一段文字。
生成的視頻質(zhì)量越高、時長越長,推理成本就越高。
很多視頻生成模型都是如此,一開始很便宜,甚至免費(fèi),等用戶涌進(jìn)來后,很快就開始限額、排隊、漲價。
不是公司不想放量,是地主家也沒余糧了。
所以中國視頻AI接下來要面對的,不只是“能不能做出好模型”,而是“能不能把好模型變成一門好生意”。
如果價格太低,用戶增長越快,虧損越大;如果價格太高,沒有用戶,那就得不償失了。
第三個是模型能力代差。
歸根結(jié)底,視頻生成的能力是建立在語言模型之上的。
一個視頻生成模型再怎么牛,它也需要語言理解能力作為基礎(chǔ),去理解用戶的提示詞。然后再用推理能力,來理解場景、角色的邏輯關(guān)系,并且保持生成內(nèi)容的連貫。
根據(jù)外媒的評估,OpenAI的ChatGPT 5.5和Anthropic的Mythos已經(jīng)將領(lǐng)先國內(nèi)AI公司9個月至1年。
這個代差體現(xiàn)在多個方面,比如推理能力、上下文理解、多輪對話、復(fù)雜任務(wù)處理等。
雖然中國在AI視頻等垂直領(lǐng)域領(lǐng)先美國AI,但在通用大模型上,還是能感受到比較明顯的差距。
總的來說,中國AI在視頻生成領(lǐng)域的領(lǐng)先是實實在在的,但也不是高枕無憂。算力和基礎(chǔ)模型的差距始終是懸在頭上的劍。不過至少現(xiàn)在,我們終于不用再仰望硅谷的背影了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.