谷歌推出Gemini Omni 帶來的不是“直接生成一部電影”

2026-05-20 17:40:05　來源: 穿越君

北京舉報(bào)

分享至

谷歌DeepMind CEO德米斯·哈薩比斯當(dāng)?shù)貢r(shí)間周二宣布推出一款新的人工智能模型“Gemini Omni”，用于視頻生成與編輯。

他表示：“該模型起初只生成視頻，但隨著時(shí)間推移，Omni將能夠從任意輸入生成任意輸出。這一直是我們?yōu)镚emini設(shè)定的目標(biāo)，也是我們從一開始就構(gòu)建多模態(tài)系統(tǒng)的原因。這條路徑更困難，但如今基礎(chǔ)架構(gòu)開始帶來回報(bào)。今天我們推出Omni系列的首個(gè)模型——Gemini Omni Flash。”該模型將從今天起在谷歌的Gemini應(yīng)用、Google Flow以及YouTube Shorts中逐步上線，公司還表示未來也將通過API開放使用。

據(jù)悉，Gemini Omni 是 Gemini 模型家族迄今為止能力最為全面的版本。“Omni”意指“全能”，該模型在處理文字、圖像、視頻、音頻等多種模態(tài)信息時(shí)，展示出前所未有的流暢性與深度。

Gemini Omni 宣稱能“從任何輸入生成任何輸出”，支持對話式編輯，用戶可一句話改變視頻中的角色、背景等元素。

把小提琴變透明：

官方展示了一個(gè)連續(xù)修改的例子：先生成一個(gè)小提琴手演奏的視頻，然后把小提琴手放進(jìn)另一張圖片里的環(huán)境，再把小提琴變成透明，最后把鏡頭角度改成從小提琴手肩膀后方看。整個(gè)過程是一輪一輪接著改，而不是每次推倒重來。

谷歌還特別強(qiáng)調(diào)，Omni背后接的是Gemini的世界知識。它對重力、動能、流體這些物理效果有更好的理解，也可以把復(fù)雜概念做成解釋視頻。行動會產(chǎn)生后果，環(huán)境會對事件做出反應(yīng)，敘事會按邏輯發(fā)展。

換句話說，谷歌想表達(dá)的是，AI視頻不是只能做炫酷短片，也可以變成一種知識表達(dá)工具。復(fù)雜概念、科學(xué)過程、教學(xué)內(nèi)容，都可以被轉(zhuǎn)成更直觀的視頻。

Gemini Omni 帶來的不是“直接生成一部電影”，而是徹底顛覆了電影的前期籌備、中期拍攝和后期制作的工作流（Workflow）。

具體來說，首先顛覆性的“對話式視頻剪輯”（Conversational Video Editing），是對影視后期行業(yè)沖擊最大的一項(xiàng)創(chuàng)新。以往剪輯師和特效師需要依賴復(fù)雜的軌道、時(shí)間軸和圖層軟件，而 Gemini Omni 引入了多輪對話剪輯機(jī)制。

像和真人剪輯師說話一樣改視頻：導(dǎo)演或剪輯師可以上傳一段粗剪視頻，直接對 AI 說：“把背景換成下雨的深夜”、“在右側(cè)車道加一輛紅色的跑車”，或者“把鏡頭的機(jī)位調(diào)低，改成仰拍”。AI 會在連續(xù)的對話中記住前面的所有指令。它在修改局部畫面時(shí)，能完美保持主角的五官一致性（Character Consistency）、周圍環(huán)境細(xì)節(jié)以及鏡頭運(yùn)動軌跡。

此外，Gemini Omni 最大的技術(shù)突破之一在于它不僅是“像素層面的模仿”，而是接受了大量物理規(guī)律的訓(xùn)練，它對重力、流體力學(xué)、動力學(xué)和光影變化有了更深刻的理解。在官方演示中，當(dāng)角色用手觸摸鏡面時(shí)，鏡面會像液體一樣泛起真實(shí)的漣漪，同時(shí)角色的手臂皮膚也會逐漸自然地演變成鏡面反射材質(zhì)。

這種高難度視聽語言的物理計(jì)算，將極大地縮短科幻、奇幻電影在綠幕階段后的 CG（電腦動畫）渲染周期和成本。

在電影前期籌備（Pre-production）階段，導(dǎo)演可以同時(shí)上傳：一張主角的人物靜態(tài)圖、一段關(guān)于世界觀的劇本文字、以及一段特定藝術(shù)風(fēng)格的參考視頻。Omni 能夠?qū)⑦@三種完全不同維度的輸入融為一體，瞬間生成符合要求的動態(tài)分鏡（Storyboard）或概念片花（Mood Reel）。

Omni 允許用戶通過自己的聲音和肖像生成高度逼真的視頻 AI avatar（數(shù)字分身）。演員在后期制作中如果需要補(bǔ)音（ADR）或修改少量面部表情，可能不再需要重回錄音棚，通過 AI 授權(quán)即可在短時(shí)間內(nèi)低成本完成微調(diào)。

但這也同時(shí)面臨巨大爭議，為了應(yīng)對深偽（Deepfake）和版權(quán)風(fēng)險(xiǎn)，谷歌在發(fā)布會上宣布暫不對公眾開放高級語音和音頻編輯功能。同時(shí)，所有由 Omni 生成的視頻都會被強(qiáng)制嵌入 DeepMind 開發(fā)的 SynthID 隱形數(shù)字水印，以此保證電影工業(yè)的版權(quán)透明度。

目前反饋來看，Gemini Omni 像是一個(gè)擁有無限算力的“全能副導(dǎo)演/特效總監(jiān)”。現(xiàn)在的獨(dú)立電影人和小型工作室，憑借這個(gè)模型，就能以極低的成本制作出以往只有好萊塢大廠才能負(fù)擔(dān)得起的視覺特效。

這次谷歌發(fā)布的 Gemini Omni，和之前在電影圈備受推崇、主打影視級畫質(zhì)的 Seedance 2.0，代表了AI在電影工業(yè)應(yīng)用的兩個(gè)完全不同的進(jìn)化方向。

前期籌備與粗剪階段可以首選 Gemini Omni，導(dǎo)演可以和 Omni 對話，把腦海里的想法迅速變成動態(tài)分鏡。比如：“把這個(gè)鏡頭改成王家衛(wèi)風(fēng)格，色調(diào)調(diào)綠，讓男主角抽口煙。”秒級生成，作為故事版和概念片用于展示。

到后期特效與成片渲染移交 Seedance 2.0當(dāng)鏡頭調(diào)度和物理碰撞通過 Omni 確定后，把基礎(chǔ)素材喂給 Seedance 2.0，利用它強(qiáng)大的美學(xué)濾鏡、膠片質(zhì)感和光影細(xì)節(jié)，渲染出真正可以端上大銀幕的電影畫面。

簡單來說，Gemini Omni 贏在“腦子”和“溝通”，它懂物理、懂劇本、聽得懂人話；而 Seedance 2.0 贏在“眼睛”和“雙手的藝術(shù)感”，它更像一個(gè)審美高級的資深攝影指導(dǎo)。

其實(shí)，我們通過最近現(xiàn)象級的電影《給阿嬤的情書》可知，真正好的電影仍然是有打動人的故事，AI最終只是作為輔助我們?nèi)ケ磉_(dá)的工具存在。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.