“自動駕駛,是物理AI的序章”。
這是Momenta合伙人、CEO曹旭東的最新判斷,翻過這個序章的代價是——
百億級美金投入。
下一個階段需要的投入更大。曹旭東認為,實現(xiàn)通用機器人,可能要上升到 幾百億甚至千億美金。所以物理AI公司不能只靠融資活著,必須先有一個能產(chǎn)生現(xiàn)金流、能形成數(shù)據(jù)閉環(huán)和商業(yè)閉環(huán)的業(yè)務。
而在他看來,自動駕駛就是目前最先跑通這兩個閉環(huán)的物理 AI 場景。
這也解釋了,為什么這家成立十年的中國自動駕駛公司,今年在北京車展上,沒有停留在講“我們智駕做得怎么樣”。
而是給出了三個更大的判斷:
第一,原始數(shù)據(jù)不值錢,真正值錢的是把數(shù)據(jù)變成能力的體系。
曹旭東用了一個很形象的比喻:數(shù)據(jù)是“含礦量很低的鐵礦石”。海量原始數(shù)據(jù)只是價值源頭的10%,剩下90%,來自數(shù)據(jù)飛輪背后的體系能力。
第二,自動駕駛不是喂數(shù)據(jù)就行,還要做行為對齊。
Momenta現(xiàn)在已經(jīng)有80萬臺量產(chǎn)車,海量真實路況數(shù)據(jù)會進入世界模型的預訓練,讓模型獲得物理常識。
但有常識不代表會開車,還要通過后訓練,把模型行為對齊到“好司機”。
第三,智駕產(chǎn)業(yè)不會長期百花齊放,而會快速收斂。
曹旭東判斷,自動駕駛公司,國內(nèi)最終可能只剩2-3家,而全球范圍也就3-4家。
所以這場群訪,表面上是在聊 Momenta 的世界模型、出海、L4、Robotaxi。
但真正的關鍵詞其實只有一個:
收斂。
技術路線在收斂,商業(yè)模式在收斂,玩家格局也在收斂。
![]()
談智能輔助駕駛:數(shù)據(jù)多不一定做得好,行業(yè)會收斂到3-4家
Q:數(shù)據(jù)閉環(huán)的最大瓶頸是數(shù)據(jù)量還是算法?還是車企的配合度?
曹旭東:數(shù)據(jù)這件事情,它不是單單的數(shù)據(jù)本身,你可以認為數(shù)據(jù)它就是礦石,而且是含礦量很低的鐵礦石,所以你要把數(shù)據(jù)真的用起來的話,首先你要把這個貧礦變成富礦。
我舉一個例子,我剛才分享到的,在高速上三只小狗排隊橫穿高速,這樣的場景真的是萬中無一、萬里挑一,你怎么把這個數(shù)據(jù)給挑出來?它的難度本身就是一個大海撈針的難度,這已經(jīng)有很高的門檻了,你怎么把貧礦變成富礦,再從富礦變成鋼鐵,鋼鐵又變成發(fā)動機,發(fā)動機最終又裝到車上,這才是最終的價值,所以整個的數(shù)據(jù)飛輪的體系,它是一個體系能力,擁有原始數(shù)據(jù),擁有海量的原始數(shù)據(jù)僅僅是一個價值源頭的10%,剩下的90%是來自于這個體系的價值,這是第一個問題。
Q:現(xiàn)在有一種說法,數(shù)據(jù)不難,但是用好數(shù)據(jù)比較難,所以Momenta怎么去用好這些數(shù)據(jù)?
曹旭東:這是一個很好的問題。像我們的大模型,可能細節(jié)不能說太多,但是我可以分享一下我們可能會分為預訓練的階段和Post-Training的階段,預訓練的階段,海量的來自于我們的量產(chǎn)車,我們現(xiàn)在已經(jīng)80萬臺車了。海量量產(chǎn)的數(shù)據(jù),而且量產(chǎn)的數(shù)據(jù)包括了大量的長尾數(shù)據(jù),通過World Model Pre-Training來預訓練這個模型。
預訓練完這個模型之后有物理常識,但是有物理常識不代表它是一個好司機,因為大量的數(shù)據(jù)里面有好的駕駛行為,但是更多的是不好的駕駛行為,所以就有一點像數(shù)字AI里面大模型的訓練一樣,你通過海量的數(shù)據(jù)作為輸入,它具備了這個世界的常識,但是不代表著它有好的行為,所以你還是需要Post-Training,通過Post-Training,把它的行為激發(fā)或者對齊到人類好的行為上去,大概會分為這兩個環(huán)節(jié)。
Q:Momenta的世界模型最大的特點是什么?
曹旭東:更重要的不是單點算法,是架構能力,架構能力已經(jīng)比單點算法能力更強了,因為一旦涉及到架構一定涉及到取舍,不是所有的創(chuàng)新都能放到同一個架構里面,涉及到架構的話就涉及到取舍,好的架構能夠實現(xiàn)更好的積累和更好的合力,架構之上又包含了體系,這個體系包含了數(shù)據(jù)迭代的體系,包括了訓練的體系,也包括了整個迭代的體系和驗證的體系,體系之上更多的是組織和文化,就有一點像中國有一句古話,淮南為橘、淮北為枳。
我覺得根本上的企業(yè)之間的差距來自于組織和文化和對應的體系的建設,這是有更大的差距的。而具體的單點的算法的話,這個創(chuàng)新當然很重要了,每一代的算法架構的創(chuàng)新,實際上會帶來大的進步,但是坦率來說,在中國的環(huán)境下,知識的流動和人才流動的速度其實是比較快的,僅僅是單點算法的話,并不存在特別大的壁壘或者差異性,有壁壘的是體系和組織的能力,所以你會發(fā)現(xiàn),可能大家說的都是同樣的單點算法的方向,但是最終做出來的效果可能有一代或者兩代的差距,背后不是單點算法的差距,背后是體系和組織的差距。
Q:旭東總好,問一下智駕格局您怎么看?今年還會一直保持華為、Momenta和其他,還是有其他更強勢的智駕供應商趕上來?還有就是您怎么看到2030年會不會迎來智駕的終局?
曹旭東:非常好的問題。因為整個智駕或者整個自動駕駛它有非常強的規(guī)模效應和先發(fā)優(yōu)勢,它的效應會比芯片行業(yè)更強,所以你回顧歷史可以看到,這個芯片行業(yè),不管是PC時代的芯片,實際上全球就只有兩家,手機芯片的時代全球也就只有兩家,高通和MTK。
自動駕駛,因為它是軟件,它的邊際成本是零,所以它的規(guī)模效應更強,它的規(guī)模效應除了成本上的規(guī)模效應,還有體驗上提升的規(guī)模效應。
另一方面,面向主機廠有特別強的先發(fā)優(yōu)勢,因為主機廠很多業(yè)務都是敲門敲三年,從你見到客戶到拿下合同是3年,如果是國際OEM的話,可能要敲門敲5-7年。
我拿奔馳舉例子,就比如說我們和奔馳的合作,2017年奔馳就投資了我們,而且當時特別巧,運氣也特別好,Ola K?llenius(康林松),現(xiàn)在奔馳的董事長,他覺得這個公司特別有活力,選擇投資我們,但是我們跟奔馳的第一個量產(chǎn)項目上市是2025年的后半年,經(jīng)歷了整整8年的時間,其實已經(jīng)加速了。
我當時問了一個清華的師兄,那個清華的師兄告訴我說,你們跟奔馳合作量產(chǎn)至少需要十年。我們中間2017年到2020年是POC,2020年到2022年是Pre SOP,2022年到2024年是小批量的量產(chǎn)開發(fā),到了2024年才拿到了奔馳所有的電車和油車的業(yè)務,2025年底的時候才真正的量產(chǎn)。
所以舉一個例子可以感受到,汽車行業(yè)敲門敲3年,國內(nèi)的OEM敲門敲3年,海外的OEM敲門敲5-7年,到底是一個什么樣的原因?因為這個行業(yè)有非常強的規(guī)模效應和非常強的先發(fā)優(yōu)勢,所以我還是維持我原來的判斷,中國也就2-3家,全球也就3-4家,會非常快速地收斂。
談商業(yè)化:中國速度和國際OEM的標準,存在沖突和矛盾
Q:全球汽車產(chǎn)業(yè)流行反向合資,越來越多的海外車企看重了中國的科技巨頭,您怎么看待這種新的趨勢?
曹旭東:這是一個非常好的問題。因為中國的技術現(xiàn)在正在從中國走向世界,整個發(fā)展速度還是非常快的,進入海外的市場,比如說進入歐洲的市場,進入其他的一些市場的時候,給當?shù)赜脩魩砀I先的產(chǎn)品價值,但是另外一方面也會帶來一些沖擊,比如說沖擊當?shù)氐墓尽數(shù)氐木蜆I(yè)或者是當?shù)氐亩愂盏鹊取1容^好的一個解決方案就是借鑒中國之前的模式,就是跟中國學習,來做反向合資,反向合資完之后,既讓當?shù)叵硎艿搅酥袊呖萍嫉募夹g和產(chǎn)品很好的用戶體驗,另外一方面就相當于是中國的技術賦能當?shù)仄髽I(yè),對當?shù)仄髽I(yè)帶來更多的發(fā)展,帶來更好的工作機會、更多的就業(yè)、更好的稅收,是一個共贏的模式。
Q:今年車展上有哪些海外的客戶和我們交流?
曹旭東:不光是今年,去年的時候我們就已經(jīng)是全球品牌的共同選擇了,在全球最頂尖的品牌里面,像德系的BBA、大眾,日系的豐田、本田、日產(chǎn),美系的通用、福特,都已經(jīng)是我們量產(chǎn)的合作客戶了。
Q:我們在和外資車企合作的過程中,有過哪些挑戰(zhàn)?我們今年的出海目標是什么?
挑戰(zhàn)的話,最常見的挑戰(zhàn),是中國的速度和國際OEM的標準,有時候是矛盾和沖突的,但是這個矛盾和沖突主要圍繞著客戶和用戶,以客戶和用戶的價值為中心去共創(chuàng),很多時候都能找到更好的創(chuàng)新性的方法,帶來更好的結果。
Q:今年剛好是Momenta成立10周年,咱們創(chuàng)業(yè)之初也曾立下3個愿景,剛才在發(fā)布會上也看到用戶的故事,也讓人印象深刻,在此時此刻,在北京車展上,一路走來您有什么感悟想要和大家分享嗎?
曹旭東:特別好的問題,我覺得還是蠻幸運,一路走來,最重要的還是跟志同道合的人去干真正喜歡的事情,真的會讓你的人生生機勃勃,創(chuàng)業(yè)過程中有很多的困難和挑戰(zhàn),這些困難和挑戰(zhàn),每一年都會覺得,這一年可能是最難的,過了這一年明年可能會更好,但實際上不是。所以的話就是,如果你不享受發(fā)現(xiàn)問題、解決問題的過程,你不享受和你身邊志同道合的人共同去探索、共同去面臨困難和解決困難的過程,其實創(chuàng)業(yè)遇到的這些困難是很難堅持下去的。可能咬著牙堅持一年,咬著牙堅持兩年,咬著牙堅持三年,很難堅持十年,所以你一定要找到志同道合的人去干喜歡的事情,去讓自己的人生生機勃勃。
談L4和物理AI:現(xiàn)金流業(yè)務是門票,要靠兩個閉環(huán)雙輪驅動
Q:曹總好,我想要請您分享一下,今年L4業(yè)務的進度如何?有沒有什么規(guī)劃?或者重要的關鍵節(jié)點?以及現(xiàn)在Robotaxi這個賽道的玩家越來越多,想要請您分享一下,Momenta做Robotaxi的優(yōu)勢。
曹旭東:非常好的問題,我們公司的L4并不是只做Robotaxi,我們既會做Robotaxi,也會做Robovan,就是物流。因為我們十年的愿景里面,十年物流和出行的效率翻倍,實際上物流是放在更前面的,出行放到后面,明年我們也會做Robotruck,雖然我們今年不會做,但是我們明年會做。
背后的底層邏輯是什么呢?還是回到今天提到的Jeff Hawkins那一本書里面,它講到了一個核心概念就是一個神經(jīng)網(wǎng)、一個大模型能夠實現(xiàn)通用AI的能力,具體落地到自動駕駛這個領域的話,我們相信的是什么呢?我們相信的是一個自動駕駛的大模型能夠實現(xiàn)所有的自動駕駛的垂直應用,并且做得更好。
而且這件事情我們已經(jīng)在Robotaxi、Robovan和乘用車上成功的驗證了,并且取得了很好的效果。這個帶來的價值是什么呢?帶來的價值就是你在每一個vertical的研發(fā)成本會大幅度的降低。而每個應用場景,每個垂直應用場景的經(jīng)驗和數(shù)據(jù),又可以匯總和吸收到這個大模型里面,使得每個垂直領域做得更好,這實際上就是一個平臺優(yōu)勢。
這個就有一點像十年前或者十幾年前整個的互聯(lián)網(wǎng)行業(yè),有垂直電商,也有平臺電商,但是最終勝出的都是平臺電商,垂直電商可能現(xiàn)在都不存在了,很重要的原因就是這個平臺效應帶來的。我們的判斷在自動駕駛在大模型領域也存在著很強的這樣的平臺效益,一個大模型能夠實現(xiàn)所有的垂直領域,并且能夠做得更好,這樣每個垂直領域的成本更低,效果會更好。
Q:物理AI被英偉達的黃教主帶火之后,很多公司都說是物理AI的公司,所以我想要問一下你覺得Momenta在全球范圍內(nèi),物理AI方面,你們是一個什么樣的位置?
曹旭東:首先我覺得物理AI是大勢所趨,為什么呢?首先大家都知道數(shù)字AI有很大的優(yōu)勢,第一個就是數(shù)字AI的數(shù)據(jù)能夠快速的呈規(guī)模的獲得。
大家都知道Open AI很早的時候,有機器人、有數(shù)字AI,但是后來在聚焦的過程中,階段性的放棄了機器人,選擇了去做GPT,很重要的原因是機器的數(shù)據(jù)太難獲得了。
而GPT需要的是互聯(lián)網(wǎng)的數(shù)據(jù),而互聯(lián)網(wǎng)的數(shù)據(jù)本來就已經(jīng)是非常大規(guī)模了。數(shù)字AI在過去幾年實際上是突飛猛進,當然另一方面數(shù)字AI能夠更加低成本、短周期的檢驗,因為它能夠在數(shù)字世界上去互動,它的成本是更低的,周期是更短的,就比如說現(xiàn)在Agent要調用的話,只需要給一個接口。但是機器人要調用某一個工具的話,它要把機械手造出來,并且要抓取那個工具,并且來使用那個工具,那個難度和復雜度都會大非常多。
但是,我們所在的世界,既有數(shù)字的部分,又有物理的部分,而物理的部分可能是更大的一部分,所以當數(shù)字世界整個的發(fā)展取得了非常大的進展之后,自然而然的很多的成功的經(jīng)驗和方法就要進入物理世界,并且在物理世界中做創(chuàng)新,這也是為什么我覺得現(xiàn)在是物理AI的序章剛開始。
再回到我們公司,講到物理AI,其實物理AI我覺得最核心的,一個是數(shù)據(jù)閉環(huán),一個是商業(yè)閉環(huán),而且這兩者是互動的。我有一個經(jīng)驗,這個經(jīng)驗就是,任何一個人工智能的應用,一旦接近人類的水平,就會在很短的時間大幅超過人類的水平,這背后的邏輯是什么呢?
僅僅是我的一個觀察,就比如說你看Alpha Go也好,或者過去的人臉識別也好,前面經(jīng)過了一個非常漫長的爬坡期去接近人,接近人可能花了十年、二十年很長的時間,但是超越人,或者大幅地超越人,有可能就發(fā)生在1、2年,2、3年的時間,一開始有這個觀察之后,我就在想背后的原因到底是什么?
后來就覺得最關鍵的還是數(shù)據(jù)閉環(huán)和商業(yè)閉環(huán),而且這兩者之間是正反饋的,因為先有了數(shù)據(jù)閉環(huán),然后才有足夠好的體驗,這個足夠好的體驗一旦達到了接近人類的水平或者超過人類的水平的時候,就能夠實現(xiàn)爆發(fā)式的商業(yè)化。而這個爆發(fā)式的商業(yè)化之后,又會帶來數(shù)據(jù)爆發(fā)式的增長,而數(shù)據(jù)爆發(fā)式的增長又會帶來模型能力進一步的爆發(fā)式增長,最終能夠互相促進、互相激發(fā),形成強烈的正反饋,而強烈的正反饋使得在很短的時間內(nèi)就能夠實現(xiàn)十倍、百倍甚至千倍人類的經(jīng)歷。
我們的判斷就是自動駕駛進入到了這個階段,機器人還需要一段時間,這是第一點。所以自動駕駛是物理AI的序章,因為它最先實現(xiàn)了規(guī)模的數(shù)據(jù)閉環(huán)和規(guī)模的商業(yè)閉環(huán)。
第二點就是,你看自動駕駛要實現(xiàn)規(guī)模化的L4,我的判斷累計的投入至少是百億美金,而且有可能還是創(chuàng)業(yè)公司的研發(fā)效率,如果你是大公司的話不只是百億美金,可能需要幾百億美金。
但是機器人呢?通用的機器人它需要多少錢?我的判斷可能是幾百億美金到千億美金這個級別,有可能還是創(chuàng)業(yè)公司的研發(fā)效率。所以我的判斷就是,物理AI它是需要有門票的,而這個門票就是你需要有現(xiàn)金流的業(yè)務,雖然現(xiàn)在整個中國具身智能的資本市場是非常活躍的,但是長期來看,要靠投資,要靠融資,追蹤做成通用的物理AI,或者物理世界的AGI是不現(xiàn)實的,而是一定要有現(xiàn)金流業(yè)務,而這個現(xiàn)金流業(yè)務可以是自動駕駛,也可以是物理AI某一個方向,雖然我現(xiàn)在沒有想到,其他的某一個方向能夠更早地實現(xiàn)規(guī)模化的數(shù)據(jù)閉環(huán)和商業(yè)閉環(huán),或者其他來自于數(shù)字AI的現(xiàn)金流業(yè)務。無論如何一定要有一個現(xiàn)金流業(yè)務來支持物理AI的研發(fā)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.