<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      最早做文生視頻的人,開(kāi)始構(gòu)建世界

      0
      分享至


      出品|虎嗅科技組

      作者|陳伊凡

      編輯|苗正卿

      頭圖|AI生成

      “AI原生100”是虎嗅科技組推出針對(duì)AI原生創(chuàng)新欄目,這是本系列的第「54」篇文章。

      “創(chuàng)業(yè)只能掙到自己認(rèn)知范圍內(nèi)的錢(qián),認(rèn)知范圍外是一個(gè)巨大的陷阱,把我們這幫青蛙陷在井里。”

      梅濤用這句話(huà)來(lái)描述創(chuàng)業(yè)公司面臨的挑戰(zhàn)和作為視頻模型生成公司智象未來(lái)創(chuàng)始人兼CEO的焦慮,不是技術(shù)不夠強(qiáng),也不是錢(qián)不夠多,是認(rèn)知邊界。如何跳出這口井?梅濤的辦法是:自身迭代、團(tuán)隊(duì)的碰撞,朋友圈的刺激。

      近日,全球知名獨(dú)立第三方AI模型評(píng)測(cè)平臺(tái)Artificial Analysis的文生圖榜單(Text to Image Leaderboard)更新,HiDream-O1-Image 開(kāi)源版本躋身文生圖(Text to Image)模型榜單前列,并位列開(kāi)源模型第一。Artificial Analysis是目前全球公認(rèn)最具權(quán)威性和參考價(jià)值的獨(dú)立 AI 基準(zhǔn)測(cè)評(píng)機(jī)構(gòu)之一,在業(yè)界常被譽(yù)為“AI 領(lǐng)域的 Gartner”。


      Artificial Analysis的文生圖榜單

      走進(jìn)智象未來(lái)合肥的辦公室,首先映入眼簾的是一面員工照片墻。所有頭像,都是AIGC生成的動(dòng)漫風(fēng)格。這家公司的核心業(yè)務(wù)是圖像和視頻生成——AI時(shí)代的自己,是他們?cè)谥窍笪磥?lái)的第一課。


      智象未來(lái)合肥辦公室門(mén)口的照片墻 圖片由智象未來(lái)提供

      梅濤的會(huì)客廳,滿(mǎn)墻合影。這是梅濤的朋友圈,也是全球人工智能行業(yè)的半壁江山。隨便指向哪一張,梅濤都能說(shuō)出來(lái)龍去脈——哪年在哪里,當(dāng)時(shí)聊了什么,那個(gè)人后來(lái)去了哪里。微軟的同事,京東的伙伴,投資人,行業(yè)里來(lái)來(lái)往往的導(dǎo)師、朋友和合作伙伴……照片背后的故事,他細(xì)數(shù)家珍。


      梅濤在世界人工智能大會(huì)上發(fā)言 圖片由智象未來(lái)提供

      智象未來(lái)成立四年,從圖像、視頻生成到原生全模態(tài)世界模型,從工具到co-creator,從DIT架構(gòu)迭代到UiT架構(gòu),每一次轉(zhuǎn)向都是對(duì)原有認(rèn)知的突破。(虎嗅注:以 Sora 為代表的 DiT架構(gòu),它將圖像或視頻拆解為大量細(xì)小單元,并統(tǒng)一推演它們之間的關(guān)系,因此能夠生成細(xì)節(jié)豐富、視覺(jué)沖擊力強(qiáng)的結(jié)果。UiT思路則是將文本 Token、視覺(jué)信息和控制條件納入同一個(gè)模型空間,由統(tǒng)一 Transformer 直接完成對(duì)齊、理解與生成。簡(jiǎn)言之,UiT能讓理解與生成更統(tǒng)一。)

      智象未來(lái)這次的就是用UiT架構(gòu),將8B參數(shù)的模型打出了超出56B模型的效果。

      對(duì)于普通用戶(hù)來(lái)說(shuō),直接感受到的結(jié)果就是:模型更能理解用戶(hù)想要什么,生成效果更穩(wěn)定,復(fù)雜修改也更容易一次完成。

      我們聊天的時(shí)點(diǎn),恰逢視頻生成模型賽道加速升溫的時(shí)間節(jié)點(diǎn)和拐點(diǎn)。年初,Seedance2.0把AI視頻生成從“能用”推向“可控且可規(guī)模化”。近日,快手計(jì)劃分拆旗下視頻生成大模型業(yè)務(wù)可靈 AI,并以約 200 億美元估值尋求融資。商業(yè)化、資本化與模型能力同步提速,意味著視頻生成正成為生成式 AI 的核心戰(zhàn)場(chǎng)。

      與此同時(shí),初創(chuàng)公司也出現(xiàn)了分化,除了智象未來(lái),還有愛(ài)詩(shī)科技、生數(shù)科技這樣的頭部公司,資本和用戶(hù)都在涌入,格局也在固化。

      在這場(chǎng)競(jìng)爭(zhēng)中,智象未來(lái)不是融資最多的,也不是體量最大的。東方富海合伙人王兵選擇智象未來(lái),看中的是這家公司強(qiáng)大且穩(wěn)定的底層技術(shù)班底。梅濤本身,就是視頻生成的開(kāi)創(chuàng)者,2017年,梅濤是全球第一篇文生視頻論文的作者。智象未來(lái)這么多年,該論文的核心研究者都沒(méi)有離職,極其穩(wěn)定?!白罱K能融到持續(xù)多資金的公司,一定是人才密度最高的公司,這是所有行業(yè)通律?!蓖醣f(shuō)。

      與此同時(shí),另一個(gè)重要的賽道正在向視頻模型公司打開(kāi)——具身智能世界模型,新的錢(qián)也開(kāi)始涌入。Yann LeCun的AMI Labs在2026年3月完成10.3億美金種子輪,估值35億美元;李飛飛的World Labs在2026年2月完成了10億美元融資,估值飆升至50億美元。2026年年初至今,已經(jīng)有超過(guò)13億美元流向世界模型賽道。

      當(dāng)越來(lái)越多公司開(kāi)始說(shuō)世界模型時(shí),我問(wèn)梅濤,智象未來(lái)提出這個(gè)概念,是為了講故事嗎?梅濤說(shuō)不是,早在 2022 年,他已經(jīng)帶著團(tuán)隊(duì)在京東亞洲一號(hào)物流倉(cāng)里研究如何讓機(jī)器人如何穩(wěn)態(tài)運(yùn)營(yíng)識(shí)別海量的包裹分揀,創(chuàng)業(yè)之初也在具身智能和視覺(jué)生成兩個(gè)方向之間深度思考過(guò),最終選擇了視覺(jué)生成賽道,而2024年,智象未來(lái)內(nèi)部已經(jīng)在討論世界模型,“做視頻生成模型的這波人,是最有可能把世界模型做成。”

      智象未來(lái)CTO姚霆說(shuō),智象的核心邏輯是做視覺(jué)創(chuàng)作,核心是解決創(chuàng)作本身的問(wèn)題。這也是智象決定開(kāi)展不同業(yè)務(wù)的底層邏輯。不管是面向影視、營(yíng)銷(xiāo)行業(yè)做創(chuàng)作,還是給機(jī)器人做相關(guān)內(nèi)容創(chuàng)作,都屬于創(chuàng)作。在服務(wù)不同行業(yè)的過(guò)程中,會(huì)沉淀對(duì)應(yīng)的行業(yè)know-how,將其轉(zhuǎn)化為相關(guān)功能,未來(lái)隨著智能體發(fā)展,還可以沉淀為具備行業(yè)屬性的skill。

      虎嗅交流了智象未來(lái)的創(chuàng)始人兼CEO梅濤、CTO姚霆、東方富海合伙人王兵以及諾亦騰創(chuàng)始人戴若犁,試圖還原在新技術(shù)浪潮到來(lái)之時(shí),一家以創(chuàng)作為主線的初創(chuàng)公司如何建構(gòu)新的世界。

      世界模型:視覺(jué)生成模型公司的新故事和底牌

      在一場(chǎng)智象未來(lái)的內(nèi)部討論會(huì)上,梅濤他們?cè)诎装迳嫌貌煌伾墓P寫(xiě)了團(tuán)隊(duì)對(duì)于世界模型的理解,其中特別用紅色的筆寫(xiě)下“mold the world”——建模這個(gè)世界的同時(shí),構(gòu)建世界。

      在梅濤的思考中,世界模型需要三個(gè)要素:第一,能夠?qū)W會(huì)各種模態(tài)的表達(dá),能夠?qū)φ麄€(gè)世界進(jìn)行建模;第二,能夠結(jié)合物理規(guī)律和因果關(guān)系進(jìn)行推理,“Reason the world”;第三,能夠把物理世界按照想象重建出來(lái),也就是“mold the world”。

      如今,對(duì)于世界模型的定義有三類(lèi),第一類(lèi)路線是以李飛飛的World Labs為代表,核心理念是指一種空間智能,他們認(rèn)為世界模型應(yīng)該構(gòu)建一個(gè)持久的、三維的、可交互的實(shí)體空間;第二類(lèi)路線是Yann LeCun為代表,認(rèn)為世界模型是智能體內(nèi)部的一個(gè)模塊,用于在抽象層面預(yù)測(cè)后果;第三類(lèi)路線就是以DeepMind為代表的"視頻即世界",將視頻生成作為世界模型的表現(xiàn)形式。

      在王兵看來(lái),到 2026 年行業(yè)對(duì)世界模型的理解逐步形成共識(shí):無(wú)論是做 VLA 還是世界模型,核心都是底層基模能力。世界模型本質(zhì)上要訓(xùn)練出一個(gè)能夠理解并預(yù)測(cè)物理世界的大模型,不具備大模型訓(xùn)練能力的公司,很難真正做好這件事。擁有視頻模型訓(xùn)練能力的公司,已經(jīng)具備世界模型訓(xùn)練基礎(chǔ)。從文藝創(chuàng)作類(lèi)視頻模型拓展具身智能相關(guān)的世界模型,本質(zhì)上是把訓(xùn)練數(shù)據(jù)換成符合物理規(guī)律、面向具體場(chǎng)景的具身數(shù)據(jù),訓(xùn)練方法和工程能力是一脈相承的。真正的關(guān)鍵,是場(chǎng)景數(shù)據(jù)的選擇、規(guī)模和標(biāo)注質(zhì)量。

      也因此,具身智能成了智象未來(lái)進(jìn)入世界模型的切口。

      作為機(jī)器人數(shù)據(jù)公司諾亦騰的創(chuàng)始人,戴若犁思考世界模型相關(guān)的合作和布局已經(jīng)半年多。他很清楚,諾亦騰內(nèi)部雖然有擅長(zhǎng)世界模型訓(xùn)練等團(tuán)隊(duì),但訓(xùn)練多模態(tài)基礎(chǔ)模型耗時(shí)至少兩個(gè)月到三個(gè)月,成本千萬(wàn)級(jí),重復(fù)研發(fā)屬于資源浪費(fèi),因此和視頻模型公司合作,是效率更高的做法。戴若犁說(shuō),視頻生成模型和具身智能的核心能力是同一個(gè),那就是預(yù)測(cè)。

      戴若犁舉個(gè)了例子, 假設(shè)你要訓(xùn)練一個(gè)機(jī)器人抓取桌上的杯子。傳統(tǒng)的做法是,給機(jī)器人大量的抓取數(shù)據(jù)讓它學(xué)會(huì)"看到杯子——伸手——抓住"這個(gè)動(dòng)作序列。但這種方法的問(wèn)題是,如果杯子的形狀、位置、材質(zhì)發(fā)生變化,機(jī)器人就不知道怎么辦了。

      但如果用視頻生成模型的思路,機(jī)器人會(huì)先預(yù)測(cè):如果這樣伸手,杯子會(huì)怎么動(dòng)?如果我用這個(gè)力度抓,杯子會(huì)不會(huì)碎?它會(huì)在腦子里模擬一遍整個(gè)過(guò)程,然后選擇最優(yōu)的行動(dòng)方案。這種能力,就是視頻生成的世界模型帶來(lái)的。

      諾亦騰的需求很清晰:把動(dòng)捕數(shù)據(jù)里的視覺(jué)缺陷修掉。操作者戴著動(dòng)捕手套,手套遮住了手部,給后續(xù)訓(xùn)練留下一個(gè)視覺(jué)盲點(diǎn);測(cè)試場(chǎng)景太單一,缺乏多樣性。

      戴若犁考察了國(guó)內(nèi)合適的合作方,最終敲定和智象未來(lái)的合作,除了發(fā)現(xiàn)智象未來(lái)也有向具身智能布局的規(guī)劃,“手快”也是這場(chǎng)合作達(dá)成的關(guān)鍵原因。提出需求之后,智象未來(lái)就開(kāi)展 POC 驗(yàn)證,很快得到積極結(jié)論。

      智象未來(lái)CTO姚霆負(fù)責(zé)了這場(chǎng)合作,他說(shuō)之所以“手快”,其實(shí)是兩個(gè)原因,一是模型能力已經(jīng)到了成熟階段,接到數(shù)據(jù)后很快完成生成,初始精度就達(dá)標(biāo)。二是智象之前做過(guò)大量視覺(jué)理解任務(wù),這類(lèi)數(shù)據(jù)生產(chǎn)工作流要生成能力和理解類(lèi)算法同時(shí)到位。

      這個(gè)合作在2025年初開(kāi)始落地。智象未來(lái)用諾亦騰提供的動(dòng)作捕捉數(shù)據(jù),訓(xùn)練了一個(gè)具身智能的原型模型。這個(gè)模型能夠完成抓取、放置、推動(dòng)、旋轉(zhuǎn)等基礎(chǔ)動(dòng)作,并且在執(zhí)行任務(wù)時(shí),會(huì)自動(dòng)考慮物理約束。更重要的是,這個(gè)模型的泛化能力很強(qiáng)。用杯子訓(xùn)練的模型,能夠直接遷移到抓取其他物體上。這種泛化能力,正是世界模型的核心價(jià)值。


      做視頻領(lǐng)域的Anthropic

      智象未來(lái)想成為一家什么樣的公司?梅濤的類(lèi)比是視頻領(lǐng)域的Anthropic。這個(gè)類(lèi)比的標(biāo)準(zhǔn)是基于ToB的企業(yè)服務(wù),這也是智象未來(lái)的商業(yè)模式。這家后起于OpenAI的公司,突破了1.2萬(wàn)億的估值。

      梅濤把大模型賽道分為三層。第一層是大型互聯(lián)網(wǎng)公司,有流量入口、C端用戶(hù),像Google、字節(jié)。第二層是做基礎(chǔ)模型的公司,例如OpenAI的Sora。第三層是做各種agent和垂類(lèi)應(yīng)用的公司,像Cursor這樣的。

      智象未來(lái)的定位在第二層和第三層之間——既做模型又做應(yīng)用,模型和應(yīng)用雙輪驅(qū)動(dòng)。但梅濤很清楚,他們的模型一定不是要做非常通用的模型跟大廠競(jìng)爭(zhēng),而是基于自己的場(chǎng)景來(lái)優(yōu)化,做有特色的模型。

      “大模型的能力有點(diǎn)像海平面,一直在往上漲,很多公司就被淹沒(méi)了?!?/p>

      梅濤用這個(gè)比喻來(lái)描述AI行業(yè)的變化,那么沒(méi)被淹沒(méi)的是什么?要么是足夠高的山,要么是隨水而漲的船。智象未來(lái)的定位是兩者都做:圖片和視頻模型是一座高山峰,三個(gè)場(chǎng)景的Agent 是三艘船:一個(gè)是跨境電商的短視頻營(yíng)銷(xiāo),另一個(gè)是影視制作,還有一個(gè)面向?qū)I(yè)級(jí)C端用戶(hù)的場(chǎng)景,社媒內(nèi)容創(chuàng)作。三種場(chǎng)景,ToB是核心。

      “在AI的商業(yè)模式里,最長(zhǎng)久、最健康的應(yīng)該一定是企業(yè)服務(wù)?!泵窛f(shuō),原因很簡(jiǎn)單:企業(yè)客戶(hù)的復(fù)購(gòu)率極高,隨著產(chǎn)品深度的增加,客單價(jià)可以不斷提升,其商業(yè)天花板遠(yuǎn)超C端。

      至于C端,純工具性的C端產(chǎn)品,用戶(hù)新鮮感一過(guò),留存率極低,且Token消耗巨大,價(jià)格昂貴。如果無(wú)法讓C端用戶(hù)大量付費(fèi),這種模式無(wú)法形成完整的商業(yè)閉環(huán)。

      什么時(shí)候數(shù)據(jù)飛輪開(kāi)始轉(zhuǎn)起來(lái)?梅濤說(shuō),第一個(gè)是跨境電商短視頻營(yíng)銷(xiāo)。智象未來(lái)有一個(gè) agent 專(zhuān)門(mén)分析電商平臺(tái)上的爆款視頻,把它拆解、重構(gòu)成想要的視頻生成模板,然后復(fù)刻這個(gè)模板提供給跨境電商平臺(tái)商家使用,每天更新。生成視頻之后,根據(jù)用戶(hù)的觀看量反饋去決定是復(fù)刻還是放棄。這個(gè)完整鏈路今天已經(jīng)跑起來(lái)——一天能支持商家產(chǎn)出做將近50條短視頻廣告。


      智象未來(lái)生成的廣告圖 圖片由智象未來(lái)提供

      第二個(gè)是專(zhuān)業(yè)級(jí)C 端的創(chuàng)作工具。在不同國(guó)家流行不同的模版——在巴西做球星相關(guān)短視頻,在印度做舞蹈動(dòng)作控制模板。如果不通過(guò)用戶(hù)反饋,根本不知道這個(gè)國(guó)家的喜好。現(xiàn)在智象未來(lái)面向?qū)I(yè)級(jí)C 端的APP 每個(gè)月有超過(guò)千萬(wàn)的新增下載量。

      第二種模式叫做RaaS(Results as a Service,按結(jié)果付費(fèi)服務(wù)),則展現(xiàn)了AI顛覆傳統(tǒng)商業(yè)模式的巨大潛力。梅濤說(shuō),所謂RaaS,就是他們?cè)诮o客戶(hù)提供AI生成服務(wù)的同時(shí),直接為客戶(hù)的商業(yè)結(jié)果負(fù)責(zé),客戶(hù)愿意按最終的轉(zhuǎn)化結(jié)果來(lái)付費(fèi)、甚至是返傭。

      這件事聽(tīng)起來(lái)簡(jiǎn)單,但智象未來(lái)跑了有一年半的時(shí)間?!爸钡?024年的七八月份,我們才真正感覺(jué)自己活下來(lái)。”梅濤回憶,在最初的一年多里,公司內(nèi)部也在搖擺,最初他們?cè)噲D將AI能力打包成標(biāo)準(zhǔn)的SaaS軟件賣(mài)給企業(yè)客戶(hù),但很快發(fā)現(xiàn),當(dāng)時(shí)的視頻生成工具使用門(mén)檻依然很高,不同悟性的使用者,用同樣的軟件生成出來(lái)的效果天差地別,“既然效果無(wú)法標(biāo)準(zhǔn)化,你就很難給這個(gè)軟件制定一個(gè)公允的價(jià)格,客戶(hù)也不愿意買(mǎi)單?!?/p>

      轉(zhuǎn)折點(diǎn)在2024年夏天悄然降臨。借著Sora發(fā)布后的市場(chǎng)東風(fēng),他們?cè)诋?dāng)年5月底推出了一款類(lèi)似架構(gòu)的商業(yè)化產(chǎn)品。這款產(chǎn)品上線當(dāng)月便斬獲了兩三百萬(wàn)的月活躍用戶(hù)。如今,其付費(fèi)用戶(hù)的留存率已穩(wěn)定在50%以上。

      2025年年底,隨著應(yīng)用的爆發(fā),多模態(tài)的token消耗量極大,加之Seedance的發(fā)布,視頻模型領(lǐng)域迎來(lái)了類(lèi)似GPT3.5的智能涌現(xiàn)時(shí)刻,梅濤發(fā)現(xiàn)公司的估值也出現(xiàn)了明顯的增長(zhǎng)。


      進(jìn)入智能體的世界

      智象未來(lái)的Agent戰(zhàn)略,本質(zhì)上是在為兩個(gè)世界搭建橋梁:一個(gè)是人類(lèi)創(chuàng)作者的世界,一個(gè)是智能體的世界。在人類(lèi)創(chuàng)作者的世界里,Agent是co-creator,是幫助人類(lèi)更好地表達(dá)創(chuàng)意的伙伴;在智能體的世界里,Agent是能力提供者,是讓機(jī)器人理解和生成視覺(jué)內(nèi)容的基礎(chǔ)設(shè)施。

      作為智象未來(lái)的CTO,姚霆最近思考最多的事情就是智能體,如何通過(guò)智能體放大智象未來(lái)的能力?如何為智能體設(shè)計(jì)交互?

      2026年初,OpenClaw出現(xiàn),這個(gè)被稱(chēng)為"龍蝦"的智能體,定義了一個(gè)新概念——co-worker(共同工作伙伴)。 “但我們要在此基礎(chǔ)上升級(jí)成co-creator(共同創(chuàng)作者)?!币f(shuō)。

      姚霆對(duì)Agent的理解,來(lái)自一個(gè)更底層的架構(gòu)思考。他用一個(gè)公式描述了未來(lái)智能化應(yīng)用的范式,未來(lái)所有的智能化APP等于Harness(在AI 智能體的世界里,它就是那個(gè)讓智能體既能夠發(fā)揮能力,又不會(huì)失控的"安全腳手架")乘以一些skills,底層就是OS。

      比如在影視創(chuàng)作場(chǎng)景中,一個(gè)“分鏡生成”的skill,不僅要能根據(jù)劇本生成畫(huà)面,還要理解鏡頭語(yǔ)言、敘事節(jié)奏、情緒表達(dá),甚至要知道不同類(lèi)型的作品(短劇、廣告、紀(jì)錄片)對(duì)分鏡的要求有什么差異。這種深度的行業(yè)理解,不是調(diào)用幾個(gè)API就能實(shí)現(xiàn)的。

      這也是為什么智象未來(lái)要自己承接影視作品、自己做短劇、自己服務(wù)營(yíng)銷(xiāo)客戶(hù),是為了在真實(shí)場(chǎng)景中沉淀出不可復(fù)制的能力。姚霆說(shuō),未來(lái)的skill會(huì)像互聯(lián)網(wǎng)時(shí)代的網(wǎng)頁(yè)一樣多,會(huì)有大量的工作需要做——評(píng)估、篩選、推薦、組合。姚霆把這些能力分成四層。

      第一層是基礎(chǔ)模型能力,以API的形式提供給開(kāi)發(fā)者,這是智象未來(lái)的底座,也是和大廠競(jìng)爭(zhēng)的基礎(chǔ)。但這一層的競(jìng)爭(zhēng)會(huì)越來(lái)越激烈,價(jià)格會(huì)越來(lái)越低,利潤(rùn)會(huì)越來(lái)越薄。

      第二層是標(biāo)準(zhǔn)化的skill,比如"文生視頻"、"圖生視頻"、"視頻延長(zhǎng)",這些是通用的功能模塊,可以被集成到各種應(yīng)用中。這一層的價(jià)值在于穩(wěn)定性和易用性,但差異化空間有限。

      第三層是行業(yè)定制的skill,比如"短劇分鏡生成"、"產(chǎn)品廣告視頻制作"、"紀(jì)錄片素材生成"。

      第四層是完整的工作流,比如"從劇本到成片的短劇生產(chǎn)線"、"從產(chǎn)品圖到投放視頻的營(yíng)銷(xiāo)自動(dòng)化",這些工作流串聯(lián)了多個(gè)skill,形成了端到端的解決方案。這些skill深度融合了行業(yè)know-how,是智象未來(lái)真正的護(hù)城河。

      “我們和大廠做通用基礎(chǔ)設(shè)施的路線形成明顯的差異化競(jìng)爭(zhēng)優(yōu)勢(shì)。”姚霆說(shuō),這個(gè)差異化,就體現(xiàn)在第三層和第四層——那些深度綁定行業(yè)、不可輕易復(fù)制的高價(jià)值能力。

      另一個(gè)讓姚霆更關(guān)注的事情就是交互,這能夠決定產(chǎn)品是否能夠吸引足夠多的用戶(hù)。"是用命令行、圖形界面,還是聊天加畫(huà)布的形式,甚至是多模態(tài)的聯(lián)動(dòng)交互。"姚霆說(shuō),只要在交互這一個(gè)點(diǎn)上實(shí)現(xiàn)突破,就能吸引很多用戶(hù)。

      姚霆和梅濤對(duì)視頻模型領(lǐng)域的“Aha moment”有一個(gè)共同的判斷:用戶(hù)提供一個(gè)劇本,系統(tǒng)就能直接生成符合需求的長(zhǎng)視頻故事。至于現(xiàn)在,這個(gè)“Aha moment”還沒(méi)有到。

      以下為虎嗅整理的部分訪談?wù)?/strong>

      虎嗅:你們做跨境營(yíng)銷(xiāo)、影視、具身智能……一直在做加法,有沒(méi)有做過(guò)減法?

      梅濤:也做了減法。我們一開(kāi)始想做游戲,后來(lái)發(fā)現(xiàn)游戲這個(gè)生意比較難做。大游戲公司想自己建體系;小游戲公司成本要求嚴(yán)格,而且很難把數(shù)據(jù)放到體外,只能私有化部署,很難規(guī)?;?,所以果斷放一放。

      還有一個(gè)慘痛的經(jīng)驗(yàn)教訓(xùn)——我們做了線下打印店的素材管理,后來(lái)發(fā)現(xiàn)打印店本身就是夕陽(yáng)產(chǎn)業(yè),這些人自己也不確定將來(lái)是否還會(huì)在這個(gè)行業(yè)做下去,學(xué)習(xí)速度也慢。所以我們確實(shí)踩了一些坑。

      經(jīng)過(guò)第四年的探索,基本形成了可以規(guī)?;娜齻€(gè) ToB 模式:第一是線上線下商業(yè)體的短視頻營(yíng)銷(xiāo)和服務(wù),軟硬件一體;第二是短劇多人協(xié)作平臺(tái);第三是給全球用戶(hù)做的媒體創(chuàng)作工具和平臺(tái)。在一段時(shí)間內(nèi),我們會(huì)在這三個(gè)方向上不斷深耕。

      虎嗅:現(xiàn)在視頻模型領(lǐng)域還是以Scaling Law為主,對(duì)于資源有限的創(chuàng)業(yè)公司,要怎么堆資源和大廠競(jìng)爭(zhēng),是靠不斷融資嗎?

      姚霆:融資肯定是需要的,但創(chuàng)業(yè)公司的融資體量和大廠相比依然有很大差距,要和大廠競(jìng)爭(zhēng)主要要做好三點(diǎn):第一是認(rèn)知要快,對(duì)模型架構(gòu)、下一代模型的技術(shù)走向和選型判斷要精準(zhǔn),認(rèn)知比大廠超前半個(gè)身位甚至3個(gè)月就有很大機(jī)會(huì);第二是落地速度快,確定方向后能快速迭代出模型,同步推進(jìn)產(chǎn)品化和商業(yè)化,形成產(chǎn)品或者用戶(hù)壁壘;第三是組織架構(gòu)調(diào)整快,創(chuàng)業(yè)公司相比大廠的優(yōu)勢(shì)就是靈活性高,組織架構(gòu)扁平、轉(zhuǎn)身快才能應(yīng)對(duì)各類(lèi)產(chǎn)品變化,發(fā)揮自身優(yōu)勢(shì)。

      虎嗅:如果有一天智象失敗了,你覺(jué)得可能是什么原因?

      梅濤:可能是認(rèn)知停止迭代了。當(dāng)然這件事我覺(jué)得也不太可能發(fā)生,因?yàn)槊刻於荚诖罅拷佑|新的東西。

      虎嗅:怎么定義“認(rèn)知”?

      梅濤:認(rèn)知包括對(duì)技術(shù)的認(rèn)知、對(duì)商業(yè)化的認(rèn)知、對(duì)競(jìng)爭(zhēng)態(tài)勢(shì)的認(rèn)知,這包含了各個(gè)方面。今天的創(chuàng)業(yè)對(duì)創(chuàng)始人要求很高,你要懂技術(shù),有技術(shù)路線的判斷力和前瞻性,還要有商業(yè)化的認(rèn)知、團(tuán)隊(duì)健康度的認(rèn)知、資本化的認(rèn)知,基本上要求你是一個(gè)六邊形的戰(zhàn)士,不能有短板。

      虎嗅:那你現(xiàn)在每天最焦慮的是什么?是融錢(qián)的問(wèn)題嗎?

      梅濤:不是錢(qián)的問(wèn)題,也不是人的問(wèn)題,而是認(rèn)知的問(wèn)題。我最擔(dān)心的一點(diǎn),是我自己的認(rèn)知迭代不夠快,趕不上行業(yè)的迭代速度;以及團(tuán)隊(duì)核心的那些人,認(rèn)知迭代不夠快,甚至不如我快——那就有問(wèn)題了。創(chuàng)業(yè),你只能掙到自己認(rèn)知范圍之內(nèi)的錢(qián),認(rèn)知范圍之外是一個(gè)巨大的陷阱,把我們這幫青蛙陷在井里。我希望大家在認(rèn)知層面上一定要卷起來(lái)。

      虎嗅:在過(guò)去這幾年里,你自己認(rèn)知最大的一次迭代是什么?或者直接推翻過(guò)去的認(rèn)知。

      梅濤:我覺(jué)得我每天都在迭代。Sora這件事對(duì)我在技術(shù)認(rèn)知上是一次反省。很簡(jiǎn)單,如果相信某一條技術(shù)路線,就應(yīng)該堅(jiān)持,而不是東試西試。我當(dāng)時(shí)其實(shí)覺(jué)得 DiT 這個(gè)方向很好,但沒(méi)有下定決心,因?yàn)閯?chuàng)業(yè)資金和資源有限,沒(méi)法多條線試錯(cuò)。Sora 出來(lái)后,我們就堅(jiān)定走 DiT 的路線。

      虎嗅:但你們不是又轉(zhuǎn)向新的UiT架構(gòu)嗎?

      梅濤:因?yàn)槿绻馄磾?shù)據(jù)、光拼算力,這不是創(chuàng)業(yè)公司該干的事,要想用更少的成本、更高效的框架達(dá)到下一個(gè)階段的效果,創(chuàng)業(yè)公司就必須從架構(gòu)層面重新思考。

      這也是我們開(kāi)始做 UiT 的原因。UiT 不是簡(jiǎn)單換一套模型,而是希望從底層把文本、圖像和控制條件統(tǒng)一到同一個(gè)模型空間里,讓模型更早、更直接地完成理解、對(duì)齊和生成。我們認(rèn)為,這種原生統(tǒng)一的架構(gòu),才是圖像生成繼續(xù)走向視頻生成、乃至世界模型的重要基礎(chǔ)。

      虎嗅:那你對(duì)于公司未來(lái)的發(fā)展最擔(dān)心什么?

      梅濤:我最擔(dān)心的地方就是:第一,我的方向不對(duì),沒(méi)有前瞻性;第二,我的認(rèn)知成為公司天花板。我有時(shí)候會(huì)擔(dān)心船員發(fā)現(xiàn)方向不對(duì)但不告訴我。我希望每個(gè)人都有自己認(rèn)知迭代的角度,哪怕跟我不一樣也要告訴我,讓我有更多觸角去感知方向是否正確。

      虎嗅:現(xiàn)在AI領(lǐng)域人才薪酬很高,你們擔(dān)心團(tuán)隊(duì)核心成員被“挖角”流失的問(wèn)題嗎?

      姚霆:多少會(huì)有壓力,我和團(tuán)隊(duì)也說(shuō)過(guò),大家聚在一起做這件事不是為了錢(qián),如果只看薪資大家都應(yīng)該去大廠。我們的團(tuán)隊(duì)成員尤其是模型團(tuán)隊(duì)的人,對(duì)模型研發(fā)都很癡迷,大家的共識(shí)是想在這個(gè)領(lǐng)域做出能被記住的成果,比如以后墓志銘能留下自己參與研發(fā)的知名模型的名字。

      虎嗅:你自己希望以后世界以什么記住你?

      姚霆:我肯定希望能留下因?yàn)槲叶嬖诘哪P偷拿?,比如后續(xù)我們推出的出色的、被行業(yè)廣泛認(rèn)可的模型,大家提到的時(shí)候知道是我參與做的,對(duì)我來(lái)說(shuō)就足夠了。


      本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4858842.html?f=wyxwapp

      聲明:包含AI生成內(nèi)容

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      成都錦江發(fā)布情況通報(bào)

      成都錦江發(fā)布情況通報(bào)

      愛(ài)看頭條
      2026-06-16 20:06:02
      不容錯(cuò)過(guò):6月17日21點(diǎn)央視五套CCTV5+節(jié)目表

      不容錯(cuò)過(guò):6月17日21點(diǎn)央視五套CCTV5+節(jié)目表

      小犙拍客在北漂
      2026-06-17 07:53:18
      中醫(yī)倪海廈:人可以節(jié)約,可以不買(mǎi)衣服,甚至吃差點(diǎn),不修邊幅都可以,但一定要出門(mén),不要將自己困在家里,只有在外面......

      中醫(yī)倪海廈:人可以節(jié)約,可以不買(mǎi)衣服,甚至吃差點(diǎn),不修邊幅都可以,但一定要出門(mén),不要將自己困在家里,只有在外面......

      背包旅行
      2026-06-11 15:09:42
      數(shù)億煤礦1200萬(wàn)賤賣(mài),法官套現(xiàn)千萬(wàn):河南這出“吃干抹凈”的局

      數(shù)億煤礦1200萬(wàn)賤賣(mài),法官套現(xiàn)千萬(wàn):河南這出“吃干抹凈”的局

      有戲
      2026-06-12 10:48:18
      視頻丨紅旗-16F實(shí)彈打靶!陸軍首次具備中遠(yuǎn)程防空反導(dǎo)能力

      視頻丨紅旗-16F實(shí)彈打靶!陸軍首次具備中遠(yuǎn)程防空反導(dǎo)能力

      環(huán)球網(wǎng)資訊
      2026-06-16 09:27:04
      美伊諒解備忘錄14點(diǎn)內(nèi)容披露 官方尚未證實(shí)

      美伊諒解備忘錄14點(diǎn)內(nèi)容披露 官方尚未證實(shí)

      新華社
      2026-06-17 09:54:03
      皇馬的終極目標(biāo)會(huì)是誰(shuí)?穆里尼奧要利用世界杯考察他們!

      皇馬的終極目標(biāo)會(huì)是誰(shuí)?穆里尼奧要利用世界杯考察他們!

      孫譁北漂拍客
      2026-06-17 09:06:55
      馬斯克喊話(huà)歐洲最偉大公司:一臺(tái)機(jī)器賣(mài)26億,市值5萬(wàn)億

      馬斯克喊話(huà)歐洲最偉大公司:一臺(tái)機(jī)器賣(mài)26億,市值5萬(wàn)億

      閃存獵手
      2026-06-17 02:11:28
      阿根廷對(duì)陣阿爾及利亞:南美足球的首場(chǎng)勝利

      阿根廷對(duì)陣阿爾及利亞:南美足球的首場(chǎng)勝利

      阿衃體育
      2026-06-17 08:17:14
      從3萬(wàn)億到5.14萬(wàn)億:SpaceX登頂全球市值第一,還需跨過(guò)幾道坎?

      從3萬(wàn)億到5.14萬(wàn)億:SpaceX登頂全球市值第一,還需跨過(guò)幾道坎?

      硬核玩家2哈
      2026-06-17 02:15:12
      凌晨落地不肯走?30 名德國(guó)游客被中國(guó)這波操作震碎三觀!

      凌晨落地不肯走?30 名德國(guó)游客被中國(guó)這波操作震碎三觀!

      娛樂(lè)圈見(jiàn)解說(shuō)
      2026-06-17 02:12:46
      世界杯早報(bào):亞洲冠軍慘敗,死亡之組明朗,門(mén)將大失誤,法挪大勝

      世界杯早報(bào):亞洲冠軍慘敗,死亡之組明朗,門(mén)將大失誤,法挪大勝

      帛河體育
      2026-06-17 08:28:31
      普通人存到這個(gè)數(shù),真的不用再慌了

      普通人存到這個(gè)數(shù),真的不用再慌了

      老陸不老
      2026-06-17 06:58:57
      1:1戰(zhàn)平摩洛哥后,巴西又遭當(dāng)頭一棒,致命壞消息,小組出線懸了

      1:1戰(zhàn)平摩洛哥后,巴西又遭當(dāng)頭一棒,致命壞消息,小組出線懸了

      零度眼看球
      2026-06-17 06:44:32
      214票反對(duì)!浙江人大首次否決10億級(jí)項(xiàng)目,政府投資決策迎新變局

      214票反對(duì)!浙江人大首次否決10億級(jí)項(xiàng)目,政府投資決策迎新變局

      小噎論事
      2026-06-17 01:48:47
      勇士2026選秀陷選擇爭(zhēng)議

      勇士2026選秀陷選擇爭(zhēng)議

      體壇周報(bào)
      2026-06-17 08:27:15
      賽事預(yù)告!6月17日CCTV5直播中國(guó)女排vs德國(guó),近些年六次交手皆勝

      賽事預(yù)告!6月17日CCTV5直播中國(guó)女排vs德國(guó),近些年六次交手皆勝

      排球大視界
      2026-06-16 13:52:18
      5000萬(wàn)婚禮,陳婉珍一毛不拔,豪門(mén)冷血真相

      5000萬(wàn)婚禮,陳婉珍一毛不拔,豪門(mén)冷血真相

      圓夢(mèng)的小老頭
      2026-06-09 15:50:06
      法國(guó)隊(duì)最大反差!巴黎王牌教姆巴佩踢球!結(jié)果自己隱身對(duì)方封神!

      法國(guó)隊(duì)最大反差!巴黎王牌教姆巴佩踢球!結(jié)果自己隱身對(duì)方封神!

      瀾歸序
      2026-06-17 07:19:43
      新規(guī)要求演員必須用原名,消息一出,這幾位頂流演員當(dāng)場(chǎng)陷入尷尬

      新規(guī)要求演員必須用原名,消息一出,這幾位頂流演員當(dāng)場(chǎng)陷入尷尬

      阿笎評(píng)論哥
      2026-06-16 11:26:17
      2026-06-17 11:28:49
      虎嗅APP incentive-icons
      虎嗅APP
      個(gè)性化商業(yè)資訊與觀點(diǎn)交流平臺(tái)
      26482文章數(shù) 687793關(guān)注度
      往期回顧 全部

      科技要聞

      美國(guó)給Anthropic新模型上了“芯片級(jí)管制”

      頭條要聞

      一家四口進(jìn)野山迷路極限求生:自帶飲用水1天就喝完了

      頭條要聞

      一家四口進(jìn)野山迷路極限求生:自帶飲用水1天就喝完了

      體育要聞

      身價(jià)5萬(wàn)的門(mén)將,擋住了12億歐元的狂轟濫炸

      娛樂(lè)要聞

      百花獎(jiǎng)名單惹爭(zhēng)議,這5位實(shí)在可惜!

      財(cái)經(jīng)要聞

      美媒曝光美伊諒解備忘錄草案完整版

      汽車(chē)要聞

      三車(chē)齊發(fā) 零跑全新C10/C11/C16上市12.58萬(wàn)元起

      態(tài)度原創(chuàng)

      手機(jī)
      旅游
      親子
      本地
      公開(kāi)課

      手機(jī)要聞

      蘋(píng)果打磨iOS 27液態(tài)玻璃圖標(biāo):提升清晰度、告別“歪斜”錯(cuò)覺(jué)

      旅游要聞

      曲靖馬龍:向日葵花開(kāi)成海 高鐵飛馳入畫(huà)來(lái)

      親子要聞

      初為人父,爸爸大腦會(huì)“縮水又重塑”??jī)身?xiàng)研究:新手父親大腦會(huì)發(fā)生結(jié)構(gòu)性改造,全皮層灰質(zhì)體積顯著縮減 0.76%–1.14%

      本地新聞

      這屆年輕人為什么都在找心流時(shí)刻?

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 免费人妻无码不卡中文字幕系| 无码专区av| 先锋成人资源| 成人aⅴ综合视频国产| 国产亚州精品女人久久久久久| 香蕉av在线| 日日噜噜爽爽狠狠视频| 777奇米四色成人影视色区| 国产一区二区三区免费观看| 日韩少妇人妻VS中文字幕| www.97| 国产乱人伦| 精品乱人伦一区二区三区| 国产精品久久久久影院| 国产精品白浆无码流出在线看 | https://17630364268551281430832.nx37lbnqvd.com/column/all/show? | 蜜桃AV抽搐高潮一区二区| 国产美女精品一区二区| 毛片一区二区| 无码人妻一区二区三区精品视频| 日韩熟女乱综合一区二区| 蜜臀亚洲AV永久无码精品老司机| 岳乳丰满一区二区三区| 国产精品一区二区在线欢| 亚洲欧洲综合| 97在线视频精品免费观看视频| 河北全程露脸对白自拍| 96看片| 日韩人妻OL丝袜AV一二区| 丁香五月黄色片| 久久精品国产午夜福利伦理| 午夜狼友| WWWW狠狠操夜夜操天天操| 精品午夜福利在线视在亚洲| 91精品国产午夜福利| 在线免费熟女| 日韩精品人妻中文字| 中文字幕久久亚洲一区| 欧美成人午夜在线观看视频| 欧洲丰满熟女a片| 亚洲熟妇自偷自拍另欧美|