網易首頁 > 網易號 > 正文申請入駐

替你們試過了，OiiOii真能幫普通人做出電影來！

2026-05-28 07:09:26　來源: AI進化論花生

北京舉報

分享至

前兩天看到B站百大up主LKs發了一期Pocket 4P評測的視頻，談了一個非常有趣的問題，叫做：買了博主同款設備，為什么拍的還是不好看。

他給出了一個公式：

成片質量 = 相機參數(P) × (拍攝人變量(S) + 相機易用性(U)) × (環境因子(E) + 天氣因子(W))

意思是：相機參數再好，最終乘以的是你的技術和相機的易用性。設備只是乘數，人才是被乘數。同樣設備到了不同人手里，出來的東西天差地別。

我看完之后蠻有感觸的，因為AI視頻領域正在發生完全一樣的事。

字節的Seedance 2.0、快手的Kling 3.0、谷歌的Veo 3.1，模型一個比一個強。曾經封神的Sora，現在都沒什么人討論了。但你打開B站看看，用同樣模型做出來的視頻，質量差距大得離譜。有人做出來像電影片段，有人做出來像PPT配了動效。

其實和使用所有AI工具類似，當AI把基本的生成能力磨平之后，真正差異體現在領域知識上。比如所有人都能用AI Coding去做產品，但是做什么產品，或者說知道一個好產品如何產生的人會能把這件事執行得更好。而以AI視頻來說，真正懂動畫和電影領域工作流，具備相應審美的人才能做出更好的作品。

所以，你常常會發現，當大家用的模型都一致了，真正制約生產力的瓶頸又回到了人身上。

而這次，在體驗了兩天的oiioii之后，我又產生了些不同的想法。先看一個成品。我只輸入了一個劇情的想法，OiiOii幫我做出來的4分多鐘的短片：

這是怎么從一句話變成一部完整動畫的？接下來慢慢說。

一個AI視頻的質量公式

我自己拆了一個AI視頻的質量公式：

M（模型能力）這個變量，2026年已經在快速拉平。大家都能用Seedance 2.0，都能用Kling 3.0，畫面質量的差距在縮小。

真正拉開差距的，是S、U、D、C這四個變量。

而這四個變量，恰好就是大多數AI視頻工具不管的地方。它們給你一個強大的模型（M拉滿），然后把S、D、C全部甩給你。相當于給你一臺頂配相機，但拍攝技術、構圖、找光全靠你自己。

我在豆瓣標記看過的影視劇超過2000部。自己從來沒拍過東西，但片子看多了，對一些導演的工作方式印象很深。

比如希區柯克，他出了名的要把每一個鏡頭都畫成詳細的分鏡稿才開拍。他到了片場經常覺得無聊。因為在他看來，電影在畫分鏡的時候就已經拍完了，剩下的只是執行。

分鏡決定的不是畫面好不好看，而是故事怎么講、節奏怎么走。 它掌控著觀眾的情緒走向。這就是公式里D這個變量的份量。

直到我用了OiiOii，我覺得終于有一個AI視頻工具認真對待這件事了。

OiiOii：一句話雇7個AI員工

OiiOii是一個AI動畫創作工具，去年底內測的時候10萬人排隊，今年4月正式上線，據報道已有超過20萬創作者在用。

它跟其他AI視頻工具最大的區別在于，它做的不是一個5-10秒的單鏡頭。它從一句話開始，幫你做出一整部1分鐘以上的敘事動畫。

怎么做到的？OiiOii搞了一個7人虛擬動畫團隊。每個人都是一個專業化的AI Agent，各司其職：

回到公式：OiiOii做的事情，是用7個AI員工把S、U、D、C四個變量同時拉高。 你的創作能力不夠？編劇和分鏡師幫你。你不會保持一致性？角色設計師和藝術總監幫你。工具不好用？一句話就能啟動整條流水線。

這套打法比單純把工具做得更易用要狠得多。別的工具是讓你少干一點活，OiiOii是直接幫你干完。

實測：一句話到成片的完整流程

說到這里可能有點抽象，直接看我的實測。

我給OiiOii輸入了一句話：「一對戀人在星空下的天文館里起舞，周圍的場景像走進了一幅油畫，色彩夢幻，充滿不真實的浪漫感。」

這句話的靈感是《La La Land》里兩個場景的混合。一個是Mia和Sebastian在洛杉磯天文館里懸浮起舞的那段星空。另一個是片尾兩人在酒吧重逢后，腦海里想象的那段「如果當初我們在一起」的幻想片段，視覺上像直接走進了一幅畫。我想用這兩個畫面的意境做底色，看OiiOii能延展出一個什么樣的新故事。

然后就發生了一件蠻有意思的事。

下面拆開說每一步。

藝術總監接單，編劇寫劇本

輸入那句話之后，藝術總監先接單，提取了核心要素：星空天文館、起舞的戀人、油畫質感、夢幻浪漫。然后編劇Agent自動生成了一個完整故事。

兩個角色： 陸星河（28歲天體物理研究員，理性主義者）和林夢影（26歲，感性的藝術靈魂）。故事發生在一個即將閉館的天文館里，講的是理性與感性的碰撞和和解。

我只說了一句話，它給我寫了一個有人物弧光的完整劇本。

角色設計師鎖定外觀

角色設計師根據劇本為兩個角色生成了主圖和三視圖概念圖。這一步的意義是鎖定角色外觀，確保后面19個分鏡里角色不會變臉。

場景設計師搭建4個場景

場景設計師搭建了4個場景，每個場景都有多角度視圖：

星語天文館主放映廳（常規態）
天文館設備維修室
天文館生銹天臺
夢幻油畫星空大廳（極光態）

多角度視圖的意義和角色三視圖一樣：保證不同鏡頭里同一個場景看起來是一致的。

分鏡師拆出19個專業分鏡

然后是重頭戲。分鏡師把整個故事拆成了19個分鏡。

每個分鏡都有專業的鏡頭語言：medium shot、wide shot、close-up、Dutch angle、俯拍，運鏡方向、氛圍光影全部寫好了。分鏡師還給了監修思路，比如在高潮段落特意增加了天象儀啟動時「機械咆哮」與「光影狂歡」的細節銜接，避免角色在流動光影中產生空間瞬移感。

生成視頻 + 音效 + 合成

分鏡確認后，動畫師開始逐個分鏡生成視頻。用的是Seedance 2.0模型，Pro模式，可以選720p或480p。

視頻生成完之后，音效工程師用Suno生成了背景音樂，自動匹配敘事節奏。

最后藝術總監把所有素材合成為最終視頻，可以下載720p或1080p高清版。

全流程總覽

從一句話到成片，整個工作流長這樣：

對照公式看一下這個過程：

我的S幾乎為零，但D和C都被Agent拉到了我自己寫要花一整天的水平。

分鏡三板斧：想做得更好，工具不擋路

上面是全自動模式的效果。但OiiOii真正讓我覺得有意思的，是它在自動化之外還保留了精確控制的能力。

第一板斧：自動化分鏡，不用再四處扒提示詞了

用過AI視頻工具的人都知道，最痛苦的不是等生成，是寫提示詞。一個30秒的視頻拆成6個鏡頭，每個鏡頭寫一段詳細的英文提示詞，光這一步就得磨一兩個小時。

OiiOii的做法是：你不用寫。編劇Agent寫劇本，分鏡師Agent拆鏡頭寫提示詞，全自動。

按我的理解，其實是因為OiiOii對這些影視制作工作流中不同角色的技能以及各類AI模型的能力有充足的領域認知，所以，他們把這變成了一個類似skill的東西，植入在了視頻創作的工作流中。

第二板斧：自由畫布模式，從參考圖到成片的可控玩法

自動分鏡夠省心，但如果你心里已經有了一個具體的視覺參考呢？比如想復刻某個B站爆款的風格。

這就是自由畫布模式的價值。點開任意一個分鏡，你會看到分段式的提示詞，清楚地分成畫面描述、角色動作、鏡頭運動、氛圍光影幾個模塊。Agent把底牌全露出來了。覺得角色表情不對？改表情那一欄。覺得鏡頭太遠？改鏡頭運動那一欄。

畫布模式支持三種操作方式：

全自動：完全交給Agent，你只管審片
半自動：投喂一張圖，告訴Agent你想要什么
手搓：自己寫提示詞，完全手動控制

AI視頻工具最實際的應用場景之一，就是復刻爆款。我決定拿OiiOii測一下這件事。

挑的是B站最近最火的「地牢酒館」系列——第一視角進入地牢小酒館，每集來一個奇怪生物喝酒，互動詭異又好笑。單集543萬播放、32萬點贊，是2026年AI視頻賽道最值得研究的爆款樣本之一。

我做了一個改編：把酒館里的客人換成街頭霸王里的角色，看OiiOii能不能在保留原作風格的基礎上，做出新的故事。

先要選情緒關鍵詞。OiiOii給了沖突、浪漫、恐怖、搞笑、欲望幾個選項，每個都對應不同的敘事路徑。地牢酒館的精髓是荒誕反應，所以我選了「搞笑」。

然后遇到了一個小插曲。直接輸入「街頭霸王角色來酒館」會被版權檢測攔截。我換成原創設定描述（紅頭巾武術家、巨型摔角手、綠皮叢林戰士這類），就過了。這其實是好事，原創設定比直接借用IP更適合做長期內容。

接下來角色設計師給5個角色都做了主圖+三視圖，每個角色之間風格統一，但形象有明顯差異。

分鏡師拆了5個鏡頭，每個角色一段互動。提示詞的顆粒度讓我有點驚訝，精確到0-2秒、2-4秒、4-7秒的動作分解，連「金幣掉桌上的反彈路徑」這種細節都寫了。

視頻生成階段，5個分鏡并行渲染，差不多5-6分鐘全部出來。最后合成的視頻比我預想的好，第一視角的代入感和原作很像，角色互動也有荒誕喜劇的感覺。

整個過程沒有手寫一個英文提示詞。我只做了三件事：寫一段中文故事描述、選情緒關鍵詞、改了幾句被版權攔截的描述。剩下的全是Agent在做。

第三板斧：把視頻生成的黑盒展開

這個功能是我覺得OiiOii分鏡能力最強的地方，也是99%的用戶沒注意到的。

傳統AI視頻工具的體驗是：你寫一段提示詞，幾分鐘后吐出一個5秒的視頻。中間發生了什么、畫面怎么從開頭變到結尾、想改某一幀怎么改，你都不知道。從提示詞直接到視頻，是個黑盒。

OiiOii把這個黑盒拆開了。

每個鏡頭其實是由多張關鍵幀構成的。 你可以對整個鏡頭做整體調整——改提示詞、換模型、換畫布比例，讓整段畫面跟著變。

也可以展開它，對鏡頭里任意一張關鍵幀單獨修改。

視頻節奏的每一個變化——動作的起勢和完成、鏡頭的推近和拉遠、情緒的轉折——都是由這些關鍵幀的差異決定的。能調每一幀，就意味著你能掌握視頻的每一秒。

反過來也行，從已有的分鏡里任意勾選幾個，組合成一段新的視頻。

你對視頻的控制顆粒度，從一整個鏡頭變成了一幀一幀。 不滿意不用重來整個鏡頭，只改不滿意的那一小段。

這背后還有一個常被忽略的好處：省錢。 AI視頻模型現在真挺貴的，一個高清鏡頭生成成本幾塊到十幾塊不等，60秒的敘事動畫動輒幾十塊起步。如果按傳統工具的方式，一個不滿意就重做整個鏡頭，廢鏡頭的錢夠你再做半部片子。分鏡讓創作過程專業的同時，也讓執行節奏和最終成本變得可控——這其實是普通人能持續用AI做視頻的前提。

用公式的語言說：畫布模式和鏡頭拆分，讓有能力的創作者可以主動拉高S和D這兩個變量。 全自動已經給了一個不錯的底線，想做得更好，工具也不會擋你的路。

回到公式

AI視頻成片質量 = M × (S + U) × (D + C)

OiiOii沒有在M（模型）上做出獨家優勢，Seedance 2.0別的工具也能用。但它用7個專業化的AI Agent，同時拉高了U、D、C三個變量，還幫你補了S。這是M拉不動了之后，最聰明的破局方式。

我有一個判斷：AI視頻工具正在經歷和云計算一樣的演進路徑——從「賣原始算力」走向「賣完整服務」。 Seedance、Kling、Veo這些模型像是云計算早期的IaaS，給你一臺虛擬機，剩下全靠你；OiiOii這種是PaaS甚至SaaS，整套生產線開箱即用。這條路走通的話，OiiOii不會是一個AI視頻工具，它會是第一個AI視頻公司。

說實話，OiiOii不是萬能的。如果你要做真人短劇、需要精確的舞蹈動作控制，或者做系列番劇需要跨集保持角色一致，目前可能還不是它最擅長的場景。

但如果你想做單集動畫、MV、品牌宣傳片、故事短片，特別是你有好故事但不想花大量時間手搓提示詞，OiiOii的分鏡能力確實能幫你省掉很多工作，同時讓成片質量上一個臺階。

150+種風格可以選，從日漫到3D皮克斯風到真人風格都有。接入了滿血版Seedance 2.0之后，畫面質量也確實比之前好了不少。

作為一個看了2000多部電影的人，我一直覺得AI視頻工具缺的不是畫面質量，而是對創作流程的尊重。電影工業花了一百年建立起來的分工體系，從編劇到分鏡師到攝影到剪輯，每個環節都有專業的人在做專業的事。

OiiOii可能是第一個認真把這套邏輯搬到AI視頻里的產品。它給你的不是一個萬能工具，是一個團隊。你的位置是導演。

這個方向我覺得是對的。從今往后，做視頻拼的不是誰手里的模型更強，是誰雇得起更專業的AI員工。

最后說點私人的。我大學時一直有個隱隱的電影夢，看完《安妮霍爾》之后還認真買過一本《認識電影》。

17年過去了，我讀這本書的狀態一直是從入門到放棄，我可能還是拍不出那種東西。但我現在至少可以在周末花半小時，讓OiiOii的7個AI員工幫我做出一段能幫助我表達想法的東西。

這件事本身，我覺得挺浪漫的。

傳送門：www.oiioii.tv

目前注冊不需要邀請碼了，注冊就送積分，每天登錄也能領。感興趣的可以自己試試，實際體驗一下分鏡功能，會比看文章更直觀。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.