![]()
谷歌DeepMind CEO德米斯·哈薩比斯當(dāng)?shù)貢r(shí)間周二宣布推出一款新的人工智能模型“Gemini Omni”,用于視頻生成與編輯。
他表示:“該模型起初只生成視頻,但隨著時(shí)間推移,Omni將能夠從任意輸入生成任意輸出。這一直是我們?yōu)镚emini設(shè)定的目標(biāo),也是我們從一開始就構(gòu)建多模態(tài)系統(tǒng)的原因。這條路徑更困難,但如今基礎(chǔ)架構(gòu)開始帶來回報(bào)。今天我們推出Omni系列的首個(gè)模型——Gemini Omni Flash。”該模型將從今天起在谷歌的Gemini應(yīng)用、Google Flow以及YouTube Shorts中逐步上線,公司還表示未來也將通過API開放使用。
據(jù)悉,Gemini Omni 是 Gemini 模型家族迄今為止能力最為全面的版本。“Omni”意指“全能”,該模型在處理文字、圖像、視頻、音頻等多種模態(tài)信息時(shí),展示出前所未有的流暢性與深度。
Gemini Omni 宣稱能“從任何輸入生成任何輸出”,支持對話式編輯,用戶可一句話改變視頻中的角色、背景等元素。
把小提琴變透明:
官方展示了一個(gè)連續(xù)修改的例子:先生成一個(gè)小提琴手演奏的視頻,然后把小提琴手放進(jìn)另一張圖片里的環(huán)境,再把小提琴變成透明,最后把鏡頭角度改成從小提琴手肩膀后方看。整個(gè)過程是一輪一輪接著改,而不是每次推倒重來。
谷歌還特別強(qiáng)調(diào),Omni背后接的是Gemini的世界知識。它對重力、動能、流體這些物理效果有更好的理解,也可以把復(fù)雜概念做成解釋視頻。行動會產(chǎn)生后果,環(huán)境會對事件做出反應(yīng),敘事會按邏輯發(fā)展。
換句話說,谷歌想表達(dá)的是,AI視頻不是只能做炫酷短片,也可以變成一種知識表達(dá)工具。復(fù)雜概念、科學(xué)過程、教學(xué)內(nèi)容,都可以被轉(zhuǎn)成更直觀的視頻。
Gemini Omni 帶來的不是“直接生成一部電影”,而是徹底顛覆了電影的前期籌備、中期拍攝和后期制作的工作流(Workflow)。
![]()
具體來說,首先顛覆性的“對話式視頻剪輯”(Conversational Video Editing),是對影視后期行業(yè)沖擊最大的一項(xiàng)創(chuàng)新。以往剪輯師和特效師需要依賴復(fù)雜的軌道、時(shí)間軸和圖層軟件,而 Gemini Omni 引入了多輪對話剪輯機(jī)制。
像和真人剪輯師說話一樣改視頻:導(dǎo)演或剪輯師可以上傳一段粗剪視頻,直接對 AI 說:“把背景換成下雨的深夜”、“在右側(cè)車道加一輛紅色的跑車”,或者“把鏡頭的機(jī)位調(diào)低,改成仰拍”。AI 會在連續(xù)的對話中記住前面的所有指令。它在修改局部畫面時(shí),能完美保持主角的五官一致性(Character Consistency)、周圍環(huán)境細(xì)節(jié)以及鏡頭運(yùn)動軌跡。
此外,Gemini Omni 最大的技術(shù)突破之一在于它不僅是“像素層面的模仿”,而是接受了大量物理規(guī)律的訓(xùn)練,它對重力、流體力學(xué)、動力學(xué)和光影變化有了更深刻的理解。在官方演示中,當(dāng)角色用手觸摸鏡面時(shí),鏡面會像液體一樣泛起真實(shí)的漣漪,同時(shí)角色的手臂皮膚也會逐漸自然地演變成鏡面反射材質(zhì)。
這種高難度視聽語言的物理計(jì)算,將極大地縮短科幻、奇幻電影在綠幕階段后的 CG(電腦動畫)渲染周期和成本。
在電影前期籌備(Pre-production)階段,導(dǎo)演可以同時(shí)上傳:一張主角的人物靜態(tài)圖、一段關(guān)于世界觀的劇本文字、以及一段特定藝術(shù)風(fēng)格的參考視頻。Omni 能夠?qū)⑦@三種完全不同維度的輸入融為一體,瞬間生成符合要求的動態(tài)分鏡(Storyboard)或概念片花(Mood Reel)。
Omni 允許用戶通過自己的聲音和肖像生成高度逼真的視頻 AI avatar(數(shù)字分身)。演員在后期制作中如果需要補(bǔ)音(ADR)或修改少量面部表情,可能不再需要重回錄音棚,通過 AI 授權(quán)即可在短時(shí)間內(nèi)低成本完成微調(diào)。
但這也同時(shí)面臨巨大爭議,為了應(yīng)對深偽(Deepfake)和版權(quán)風(fēng)險(xiǎn),谷歌在發(fā)布會上宣布暫不對公眾開放高級語音和音頻編輯功能。同時(shí),所有由 Omni 生成的視頻都會被強(qiáng)制嵌入 DeepMind 開發(fā)的 SynthID 隱形數(shù)字水印,以此保證電影工業(yè)的版權(quán)透明度。
目前反饋來看,Gemini Omni 像是一個(gè)擁有無限算力的“全能副導(dǎo)演/特效總監(jiān)”。現(xiàn)在的獨(dú)立電影人和小型工作室,憑借這個(gè)模型,就能以極低的成本制作出以往只有好萊塢大廠才能負(fù)擔(dān)得起的視覺特效。
![]()
這次谷歌發(fā)布的 Gemini Omni,和之前在電影圈備受推崇、主打影視級畫質(zhì)的 Seedance 2.0,代表了AI在電影工業(yè)應(yīng)用的兩個(gè)完全不同的進(jìn)化方向。
前期籌備與粗剪階段可以首選 Gemini Omni,導(dǎo)演可以和 Omni 對話,把腦海里的想法迅速變成動態(tài)分鏡。比如:“把這個(gè)鏡頭改成王家衛(wèi)風(fēng)格,色調(diào)調(diào)綠,讓男主角抽口煙。”秒級生成,作為故事版和概念片用于展示。
到后期特效與成片渲染移交 Seedance 2.0當(dāng)鏡頭調(diào)度和物理碰撞通過 Omni 確定后,把基礎(chǔ)素材喂給 Seedance 2.0,利用它強(qiáng)大的美學(xué)濾鏡、膠片質(zhì)感和光影細(xì)節(jié),渲染出真正可以端上大銀幕的電影畫面。
簡單來說,Gemini Omni 贏在“腦子”和“溝通”,它懂物理、懂劇本、聽得懂人話;而 Seedance 2.0 贏在“眼睛”和“雙手的藝術(shù)感”,它更像一個(gè)審美高級的資深攝影指導(dǎo)。
其實(shí),我們通過最近現(xiàn)象級的電影《給阿嬤的情書》可知,真正好的電影仍然是有打動人的故事,AI最終只是作為輔助我們?nèi)ケ磉_(dá)的工具存在。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.