前兩天看到B站百大up主LKs發了一期Pocket 4P評測的視頻,談了一個非常有趣的問題,叫做:買了博主同款設備,為什么拍的還是不好看。
他給出了一個公式:
成片質量 = 相機參數(P) × (拍攝人變量(S) + 相機易用性(U)) × (環境因子(E) + 天氣因子(W))
![]()
意思是:相機參數再好,最終乘以的是你的技術和相機的易用性。設備只是乘數,人才是被乘數。同樣設備到了不同人手里,出來的東西天差地別。
我看完之后蠻有感觸的,因為AI視頻領域正在發生完全一樣的事。
字節的Seedance 2.0、快手的Kling 3.0、谷歌的Veo 3.1,模型一個比一個強。曾經封神的Sora,現在都沒什么人討論了。但你打開B站看看,用同樣模型做出來的視頻,質量差距大得離譜。有人做出來像電影片段,有人做出來像PPT配了動效。
其實和使用所有AI工具類似,當AI把基本的生成能力磨平之后,真正差異體現在領域知識上。比如所有人都能用AI Coding去做產品,但是做什么產品,或者說知道一個好產品如何產生的人會能把這件事執行得更好。而以AI視頻來說,真正懂動畫和電影領域工作流,具備相應審美的人才能做出更好的作品。
所以,你常常會發現,當大家用的模型都一致了,真正制約生產力的瓶頸又回到了人身上。
而這次,在體驗了兩天的oiioii之后,我又產生了些不同的想法。先看一個成品。我只輸入了一個劇情的想法,OiiOii幫我做出來的4分多鐘的短片:
這是怎么從一句話變成一部完整動畫的?接下來慢慢說。
一個AI視頻的質量公式
我自己拆了一個AI視頻的質量公式:
![]()
M(模型能力)這個變量,2026年已經在快速拉平。大家都能用Seedance 2.0,都能用Kling 3.0,畫面質量的差距在縮小。
真正拉開差距的,是S、U、D、C這四個變量。
而這四個變量,恰好就是大多數AI視頻工具不管的地方。它們給你一個強大的模型(M拉滿),然后把S、D、C全部甩給你。相當于給你一臺頂配相機,但拍攝技術、構圖、找光全靠你自己。
我在豆瓣標記看過的影視劇超過2000部。自己從來沒拍過東西,但片子看多了,對一些導演的工作方式印象很深。
比如希區柯克,他出了名的要把每一個鏡頭都畫成詳細的分鏡稿才開拍。他到了片場經常覺得無聊。因為在他看來,電影在畫分鏡的時候就已經拍完了,剩下的只是執行。
分鏡決定的不是畫面好不好看,而是故事怎么講、節奏怎么走。 它掌控著觀眾的情緒走向。這就是公式里D這個變量的份量。
直到我用了OiiOii,我覺得終于有一個AI視頻工具認真對待這件事了。
OiiOii:一句話雇7個AI員工
OiiOii是一個AI動畫創作工具,去年底內測的時候10萬人排隊,今年4月正式上線,據報道已有超過20萬創作者在用。
它跟其他AI視頻工具最大的區別在于,它做的不是一個5-10秒的單鏡頭。它從一句話開始,幫你做出一整部1分鐘以上的敘事動畫。
怎么做到的?OiiOii搞了一個7人虛擬動畫團隊。每個人都是一個專業化的AI Agent,各司其職:
![]()
回到公式:OiiOii做的事情,是用7個AI員工把S、U、D、C四個變量同時拉高。 你的創作能力不夠?編劇和分鏡師幫你。你不會保持一致性?角色設計師和藝術總監幫你。工具不好用?一句話就能啟動整條流水線。
這套打法比單純把工具做得更易用要狠得多。別的工具是讓你少干一點活,OiiOii是直接幫你干完。
實測:一句話到成片的完整流程
說到這里可能有點抽象,直接看我的實測。
我給OiiOii輸入了一句話:「一對戀人在星空下的天文館里起舞,周圍的場景像走進了一幅油畫,色彩夢幻,充滿不真實的浪漫感。」
![]()
這句話的靈感是《La La Land》里兩個場景的混合。一個是Mia和Sebastian在洛杉磯天文館里懸浮起舞的那段星空。另一個是片尾兩人在酒吧重逢后,腦海里想象的那段「如果當初我們在一起」的幻想片段,視覺上像直接走進了一幅畫。我想用這兩個畫面的意境做底色,看OiiOii能延展出一個什么樣的新故事。
然后就發生了一件蠻有意思的事。
下面拆開說每一步。
藝術總監接單,編劇寫劇本
輸入那句話之后,藝術總監先接單,提取了核心要素:星空天文館、起舞的戀人、油畫質感、夢幻浪漫。然后編劇Agent自動生成了一個完整故事。
兩個角色: 陸星河(28歲天體物理研究員,理性主義者)和林夢影(26歲,感性的藝術靈魂)。故事發生在一個即將閉館的天文館里,講的是理性與感性的碰撞和和解。
我只說了一句話,它給我寫了一個有人物弧光的完整劇本。
![]()
角色設計師鎖定外觀
角色設計師根據劇本為兩個角色生成了主圖和三視圖概念圖。這一步的意義是鎖定角色外觀,確保后面19個分鏡里角色不會變臉。
![]()
場景設計師搭建4個場景
場景設計師搭建了4個場景,每個場景都有多角度視圖:
星語天文館主放映廳(常規態)
天文館設備維修室
天文館生銹天臺
夢幻油畫星空大廳(極光態)
多角度視圖的意義和角色三視圖一樣:保證不同鏡頭里同一個場景看起來是一致的。
![]()
分鏡師拆出19個專業分鏡
然后是重頭戲。分鏡師把整個故事拆成了19個分鏡。
每個分鏡都有專業的鏡頭語言:medium shot、wide shot、close-up、Dutch angle、俯拍,運鏡方向、氛圍光影全部寫好了。分鏡師還給了監修思路,比如在高潮段落特意增加了天象儀啟動時「機械咆哮」與「光影狂歡」的細節銜接,避免角色在流動光影中產生空間瞬移感。
![]()
生成視頻 + 音效 + 合成
分鏡確認后,動畫師開始逐個分鏡生成視頻。用的是Seedance 2.0模型,Pro模式,可以選720p或480p。
![]()
視頻生成完之后,音效工程師用Suno生成了背景音樂,自動匹配敘事節奏。
![]()
最后藝術總監把所有素材合成為最終視頻,可以下載720p或1080p高清版。
![]()
全流程總覽
從一句話到成片,整個工作流長這樣:
![]()
對照公式看一下這個過程:
![]()
我的S幾乎為零,但D和C都被Agent拉到了我自己寫要花一整天的水平。
分鏡三板斧:想做得更好,工具不擋路
上面是全自動模式的效果。但OiiOii真正讓我覺得有意思的,是它在自動化之外還保留了精確控制的能力。
第一板斧:自動化分鏡,不用再四處扒提示詞了
用過AI視頻工具的人都知道,最痛苦的不是等生成,是寫提示詞。一個30秒的視頻拆成6個鏡頭,每個鏡頭寫一段詳細的英文提示詞,光這一步就得磨一兩個小時。
OiiOii的做法是:你不用寫。編劇Agent寫劇本,分鏡師Agent拆鏡頭寫提示詞,全自動。
按我的理解,其實是因為OiiOii對這些影視制作工作流中不同角色的技能以及各類AI模型的能力有充足的領域認知,所以,他們把這變成了一個類似skill的東西,植入在了視頻創作的工作流中。
第二板斧:自由畫布模式,從參考圖到成片的可控玩法
自動分鏡夠省心,但如果你心里已經有了一個具體的視覺參考呢?比如想復刻某個B站爆款的風格。
這就是自由畫布模式的價值。點開任意一個分鏡,你會看到分段式的提示詞,清楚地分成畫面描述、角色動作、鏡頭運動、氛圍光影幾個模塊。Agent把底牌全露出來了。覺得角色表情不對?改表情那一欄。覺得鏡頭太遠?改鏡頭運動那一欄。
畫布模式支持三種操作方式:
全自動:完全交給Agent,你只管審片
半自動:投喂一張圖,告訴Agent你想要什么
手搓:自己寫提示詞,完全手動控制
AI視頻工具最實際的應用場景之一,就是復刻爆款。我決定拿OiiOii測一下這件事。
挑的是B站最近最火的「地牢酒館」系列——第一視角進入地牢小酒館,每集來一個奇怪生物喝酒,互動詭異又好笑。單集543萬播放、32萬點贊,是2026年AI視頻賽道最值得研究的爆款樣本之一。
![]()
我做了一個改編:把酒館里的客人換成街頭霸王里的角色,看OiiOii能不能在保留原作風格的基礎上,做出新的故事。
先要選情緒關鍵詞。OiiOii給了沖突、浪漫、恐怖、搞笑、欲望幾個選項,每個都對應不同的敘事路徑。地牢酒館的精髓是荒誕反應,所以我選了「搞笑」。
![]()
然后遇到了一個小插曲。直接輸入「街頭霸王角色來酒館」會被版權檢測攔截。我換成原創設定描述(紅頭巾武術家、巨型摔角手、綠皮叢林戰士這類),就過了。這其實是好事,原創設定比直接借用IP更適合做長期內容。
接下來角色設計師給5個角色都做了主圖+三視圖,每個角色之間風格統一,但形象有明顯差異。
![]()
分鏡師拆了5個鏡頭,每個角色一段互動。提示詞的顆粒度讓我有點驚訝,精確到0-2秒、2-4秒、4-7秒的動作分解,連「金幣掉桌上的反彈路徑」這種細節都寫了。
![]()
視頻生成階段,5個分鏡并行渲染,差不多5-6分鐘全部出來。最后合成的視頻比我預想的好,第一視角的代入感和原作很像,角色互動也有荒誕喜劇的感覺。
整個過程沒有手寫一個英文提示詞。我只做了三件事:寫一段中文故事描述、選情緒關鍵詞、改了幾句被版權攔截的描述。剩下的全是Agent在做。
第三板斧:把視頻生成的黑盒展開
這個功能是我覺得OiiOii分鏡能力最強的地方,也是99%的用戶沒注意到的。
傳統AI視頻工具的體驗是:你寫一段提示詞,幾分鐘后吐出一個5秒的視頻。中間發生了什么、畫面怎么從開頭變到結尾、想改某一幀怎么改,你都不知道。從提示詞直接到視頻,是個黑盒。
OiiOii把這個黑盒拆開了。
每個鏡頭其實是由多張關鍵幀構成的。 你可以對整個鏡頭做整體調整——改提示詞、換模型、換畫布比例,讓整段畫面跟著變。
![]()
也可以展開它,對鏡頭里任意一張關鍵幀單獨修改。
![]()
視頻節奏的每一個變化——動作的起勢和完成、鏡頭的推近和拉遠、情緒的轉折——都是由這些關鍵幀的差異決定的。能調每一幀,就意味著你能掌握視頻的每一秒。
反過來也行,從已有的分鏡里任意勾選幾個,組合成一段新的視頻。
你對視頻的控制顆粒度,從一整個鏡頭變成了一幀一幀。 不滿意不用重來整個鏡頭,只改不滿意的那一小段。
這背后還有一個常被忽略的好處:省錢。 AI視頻模型現在真挺貴的,一個高清鏡頭生成成本幾塊到十幾塊不等,60秒的敘事動畫動輒幾十塊起步。如果按傳統工具的方式,一個不滿意就重做整個鏡頭,廢鏡頭的錢夠你再做半部片子。分鏡讓創作過程專業的同時,也讓執行節奏和最終成本變得可控——這其實是普通人能持續用AI做視頻的前提。
用公式的語言說:畫布模式和鏡頭拆分,讓有能力的創作者可以主動拉高S和D這兩個變量。 全自動已經給了一個不錯的底線,想做得更好,工具也不會擋你的路。
回到公式
AI視頻成片質量 = M × (S + U) × (D + C)
OiiOii沒有在M(模型)上做出獨家優勢,Seedance 2.0別的工具也能用。但它用7個專業化的AI Agent,同時拉高了U、D、C三個變量,還幫你補了S。這是M拉不動了之后,最聰明的破局方式。
我有一個判斷:AI視頻工具正在經歷和云計算一樣的演進路徑——從「賣原始算力」走向「賣完整服務」。 Seedance、Kling、Veo這些模型像是云計算早期的IaaS,給你一臺虛擬機,剩下全靠你;OiiOii這種是PaaS甚至SaaS,整套生產線開箱即用。這條路走通的話,OiiOii不會是一個AI視頻工具,它會是第一個AI視頻公司。
說實話,OiiOii不是萬能的。如果你要做真人短劇、需要精確的舞蹈動作控制,或者做系列番劇需要跨集保持角色一致,目前可能還不是它最擅長的場景。
但如果你想做單集動畫、MV、品牌宣傳片、故事短片,特別是你有好故事但不想花大量時間手搓提示詞,OiiOii的分鏡能力確實能幫你省掉很多工作,同時讓成片質量上一個臺階。
150+種風格可以選,從日漫到3D皮克斯風到真人風格都有。接入了滿血版Seedance 2.0之后,畫面質量也確實比之前好了不少。
作為一個看了2000多部電影的人,我一直覺得AI視頻工具缺的不是畫面質量,而是對創作流程的尊重。電影工業花了一百年建立起來的分工體系,從編劇到分鏡師到攝影到剪輯,每個環節都有專業的人在做專業的事。
OiiOii可能是第一個認真把這套邏輯搬到AI視頻里的產品。它給你的不是一個萬能工具,是一個團隊。你的位置是導演。
這個方向我覺得是對的。從今往后,做視頻拼的不是誰手里的模型更強,是誰雇得起更專業的AI員工。
最后說點私人的。我大學時一直有個隱隱的電影夢,看完《安妮霍爾》之后還認真買過一本《認識電影》。
![]()
17年過去了,我讀這本書的狀態一直是從入門到放棄,我可能還是拍不出那種東西。但我現在至少可以在周末花半小時,讓OiiOii的7個AI員工幫我做出一段能幫助我表達想法的東西。
這件事本身,我覺得挺浪漫的。
傳送門:www.oiioii.tv
目前注冊不需要邀請碼了,注冊就送積分,每天登錄也能領。感興趣的可以自己試試,實際體驗一下分鏡功能,會比看文章更直觀。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.