網易首頁 > 網易號 > 正文申請入駐

打破多模態(tài)邊界：谷歌Gemini Omni問世，自然語言即可“剪大片”

2026-05-22 14:37:48　來源: 鰲頭財經

河北舉報

分享至

作者/李海

出品/科技深報

2026年5月20日，谷歌I/O開發(fā)者大會如期落幕，這場被稱為“科技圈春晚”的盛會中，DeepMind負責人哈薩比斯與CEO皮查伊同臺，重磅推出全模態(tài)模型Gemini Omni，其“從任何輸入生成任何內容”的定位，瞬間打破了AI多模態(tài)領域的現(xiàn)有邊界。

不同于普通AI視頻工具的簡單拼接，該模型可通過自然語言指令完成視頻深度編輯，從切換鏡頭角度到植入個人數字分身，從還原物理規(guī)律到推測情節(jié)走向，每一個細節(jié)都彰顯著谷歌對AI產業(yè)的全新布局。

數據顯示，截至2026年一季度，谷歌云業(yè)務收入同比增長63%，AI訂單積壓達4620億美元，其中基于生成式AI模型的產品收入同比暴漲近800%。Gemini系列模型付費訂閱用戶總數達3.5億，App月活用戶從去年的4億翻倍至9億，每月處理的token量突破3200萬億個，較去年增長7倍之多。

從戰(zhàn)略層面剖析，Gemini Omni是谷歌突破現(xiàn)有AI局限、向AGI邁進的核心抓手。

哈薩比斯在此前訪談中曾直言，當前AI單純擴容上下文窗口的模式成本高昂，真正的AGI需具備持續(xù)學習與記憶能力，而Gemini Omni正是這一理念的實踐。

同時，谷歌同步布局安全領域，所有Omni生成視頻均嵌入SynthID數字水印，還推動OpenAI、ElevenLabs等企業(yè)采用該技術，試圖掌握AI內容溯源的行業(yè)話語權。

但光鮮的發(fā)布背后，是谷歌與行業(yè)巨頭的激烈博弈，以及自身的戰(zhàn)略隱憂。

當前AI產業(yè)呈現(xiàn)“訓練靠英偉達，推理與應用看谷歌”的格局，英偉達憑借CUDA平臺占據90%高端訓練市場，其新一代Vera Rubin平臺能效提升10倍，生態(tài)壁壘短期內難以撼動。

而谷歌自研TPU v8芯片雖在能效比上領先英偉達40%，但生態(tài)封閉性導致開發(fā)者遷移成本居高不下。

此外，Gemini Omni Flash雖已上線，卻面臨業(yè)界兩極評價，有開發(fā)者反饋其性能不及行業(yè)頂尖視頻模型，且API價格偏高，疊加運行成本上漲5倍的壓力，商業(yè)化落地仍存挑戰(zhàn)。

更深層次來看，谷歌推出Gemini Omni，本質上是在鞏固自身生態(tài)護城河。

通過將該模型嵌入Gemini App、Google Flow、YouTube Shorts等核心產品，谷歌實現(xiàn)了“創(chuàng)作-編輯-分發(fā)”的全鏈路覆蓋，既服務個人用戶，也向企業(yè)開放API，試圖將AI能力滲透至內容創(chuàng)作、企業(yè)服務等全場景。

這一布局背后，是谷歌應對微軟、OpenAI等對手的迫切需求，當微軟將GPT模型深度整合至Office生態(tài)，OpenAI發(fā)力Agent應用，谷歌必須以全模態(tài)優(yōu)勢守住AI應用的核心入口。

哈薩比斯直言，Gemini Omni正推動AI從任務執(zhí)行向AGI邁進，但這絕非一蹴而就。對于谷歌而言，Gemini Omni的發(fā)布只是起點，如何平衡技術突破與成本控制、打破生態(tài)壁壘、應對市場質疑，將成為其搶占AI產業(yè)制高點的關鍵。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.