![]()
解決非常底層、
非常硬核問題的時代來了。
文|張果
2022年的一個普通午后,在無數人尚未覺察的角落,世界動作模型第一次悄然睜開了它的眼睛。
它第一次“看到”的,不是實驗室里擦拭干凈的理想場景,而是一個真實的、動態的無人貨柜:玻璃門被推開合上,手在貨架間進進出出,瓶罐被抓起、挪動、放回,偶爾磕碰出一連串細微的形變和晃動。
對它來說,真正要學會的不是“認出一瓶飲料叫雪碧”,而是從這些擁擠而嘈雜的細節里,理解這里面隱含的物理變化和規律——什么在動、為什么動、下一步可能會發生什么。
那一刻,對正盯著屏幕數據的X-Era Lab(拓元智慧)首席科學家王可澤來說是一個很明確的轉折點。這不是靜態圖片,也不是擺拍的數字標本,而是真實世界正在震顫的、帶著因果鏈條的物理演化。這一次,他們清晰地意識到,解決非常底層、非常硬核問題的時代,已經醒來了。
X-Era Lab從創業之初,就選擇了一條少有人走的路徑——做物理AGI的世界動作模型。簡單來說,這是一個物理基座模型,在給定動作前提和預測環境之后,能預測后面一系列的物理過程、動作以及各種反饋的通用模型。在X-Era Lab發布世界動作模型基模訓練范式半年后,英偉達發布了思路高度同源的DreamZero。
做世界模型在當下也已經是共識,沒形成共識的是,到底要用怎樣的數據去訓練模型?X-Era Lab的答案是:它們一定來自于真實世界,哪怕這些數據顯得不干凈、不標準、充滿噪音和長尾事件。
這種堅持,讓它的世界動作模型成為當下少有的、可在真實場景中落地,并且實現遷移和泛化的物理模型。據36氪了解,X-Era Lab的模型已落地零售、工業等各個場景,準備賦能千行百業、不同形態的機器人。
當下,具身智能行業已經走入深水區,越來越多的人意識到,大腦成為制約具身智能實現通用的關鍵卡點。和語言大模型不同,具身數據必須靠主動采集和設計場景獲得,每一家公司都要找到自己的數據訓練范式。
在這之中,有公司偏好擬真、有公司選擇人力數采工廠,而X-Era Lab選擇到生活中去,做“實現物理AGI的世界動作模型”。這條道路沒有捷徑,也更加漫長,但只有從這一個個細碎而真實的場景中,才能長出真正意義上的物理AGI。
當下細分賽道的機器人正在放量,就算搭載大腦的機器人只有千臺,收入也能邁向數億規模。當所有人在質疑世界模型落地遙不可及時,已經在海浪中搏擊的玩家正在給出答案。
![]()
正在接受訪談的王可澤博士
具身智能的喧囂里,X-Era Lab是少數把三個閉環都跑通的公司:模型閉環,讓世界動作模型在感知—預測—控制上自成一體;數據閉環,讓真實業務每天把4D數據回流進模型;商業閉環,讓算法直接變成收入,再反哺迭代。三環咬合成一只飛輪——而這只飛輪上,它同時坐著兩個“最”:世界模型算法收入最高,4D真實數據采集量最豐富。
以下是36氪和王可澤對談,對話經過編輯:
通用物理基座模型,
到底是什么樣的?
36氪:世界模型現在路線比較混亂,X-Era Lab是怎么梳理這件事的?你們又是怎么定義的?
王可澤:我們一開始是嘗試想清楚:在具身智能領域,最終的通用智能底座,它的終點是什么。發現現在底座的演進,變成了在大模型上不停地加外掛去適配各種場景。到了具身智能也是加外掛,但我個人感覺這不是真正的終局,它是以傳統大模型為外衣套上一個殼子,很多時候停留在論文指標和仿真環境里,離工業界很遠。
所以我們當時覺得,應該專門打造一個真正以世界動作模型為內核的東西:從視覺、語言等多樣的模態,到后面動作、物理的作用和狀態的演化——從預測下一個Token,變成真的去預測下一個狀態。
36氪:具體來說,你們的模型是如何運作的?
王可澤:我們把整個技術路線都轉向世界動作模型,所有設計都從原生角度出發:在給定動作前提和預測環境之后,去預測后面一系列的物理過程、動作以及各種反饋。
這幾年,我們隨著應用邊界讓技術不停往前走:從最開始很單一的室內零售和移動抓取場景,到后面多形態的機器人、多種復雜環境,以及更強的泛化和可遷移性。
36氪:所以你們是怎么做這件事的?
王可澤:我們不是一個從開始就在講世界模型故事的團隊,而是在各種真實場景里反復打磨,構建我們的世界動作模型。隨著輿論風口轉變,我們內部也越來越確認:經過了壓力還能長期堅持做出來的東西,才是真正的具身智能底座模型。
36氪:那你們到底怎么看待VLA?
王可澤:我們發現VLA有明顯的局限性,VLA是一個重要的階段性路線,適合快速驗證和任務適配,但我們認為它不是物理AGI的終局。去年我印象很深,幾乎全行業都在講VLA,尤其是做機器人本體的、融資路演的。
對我們來說,不是看不見這個趨勢,而是我們認為VLA不是終局——你可以把它包裝成一個有“世界”味道的系統,但并沒有真正解決我們的問題。我們可能有一點技術潔癖,別人順的是輿論的風,我們順的是技術的風——看著我們在逆風,其實風一直在我們這邊。
36氪:你們為什么能如此篤定,自己走在正確的道路上?
王可澤:在這種噪音下,堅定選擇一條難而正確的技術路線尤其難,因為很多團隊需要融資,估值到了一定階段,需要不斷給出新的亮點、新的成果、新的Milestone。在物理AGI這個賽道,模型的整體框架決定了上限,而數據和工程決定了你能走多快、多遠。框架沒選對,再多demo和花活也很難持續堆上去。所以我們認為我們的春天來了:解決非常底層、非常硬核問題的時代來了。
Demo是蓋給別人看的外立面,而架構是埋在地下的地基;沒人會為地基鼓掌,可一棟樓能立多高,全看它埋得有多深。
36氪:在做物理通用底座模型之中,最難的是哪一步?
王可澤:卡得最久的還是策略這部分,也就是在真實的三維空間里學習交互策略,把物理、幾何和動作做聯合建模。讓模型腦子里一開始就是真正物理幾何的思維去看、去操作、去規劃,這天然就難。所以我們卡點比較多,要不停試探,尤其要解決模型訓練不收斂的問題。這倒不是學術理論的問題,而是真實訓練過程中的問題。
在千卡級GPU集群上,我們完成了世界動作模型的通用預訓練。以海量真實世界的4D時空點云為載體,3D點云、時間演化、交互軌跡三者合一,模型從幾何、語義、姿態、動態四個維度,提取出通用的世界狀態表征,并由此習得物理世界的運行規律。千卡集群帶來的,不只是更大的數據吞吐,更是讓模型在統一的4D+X表征中,把“看見世界”與“理解物理”真正合為一體——用最新的算力,去教機器一件最古老的事:世界是怎么運轉的。
36氪:在你看來,目前你們團隊做過的工作里,哪些算是比較有代表性、對行業認知帶來一些改變的?
王可澤:我們最近做的,其實不是某一個孤立的工作,而是一條比較完整的技術線:圍繞原生世界動作模型,去更好地預測“下一秒物理世界會怎樣”。
在這條線上,你會看到我們反復在做同一件事:用統一的物理幾何Backbone來同時承載“世界狀態”和“機器人動作”,盡量避免預訓練目標和控制目標之間的錯位。為什么要這么做?可以類比語言模型:對語言模型來說,預訓練目標和使用目標高度一致——訓練時預測下一個token,使用時也是生成token,所以只要持續把數據、模型、算力做大,語言能力就會比較穩定地往上走。
而在具身智能里,如果預訓練階段主要在做圖像到語言、視頻到視頻,而控制階段卻要輸出動作軌跡,中間其實是斷了一層。我們的判斷是:這層斷檔必須在預訓練這一級“重新對齊”,所以我們設計了一系列原生世界動作模型的工作,讓模型從一開始就學4D軌跡和物理后果,而不是事后再貼一個action頭。
這條線里有不少具體成果,其中有一項近期拿到了2026 CVPR的獎項,評審的理由一方面是計算過程足夠透明、可復現性強,另一方面也從側面印證了我們這套“原生世界動作模型”的思路在真實物理場景中是跑通了的。
找到那個數據飛輪
36氪:現在很明顯的趨勢是大廠都在下場做世界模型。你們怎么跟大廠競爭?
王可澤:我們不太靠“堆人、堆算力”跟大廠硬拼,我們的優勢主要有兩塊。
第一,是持續的架構創新能力。具身智能是一條非常全棧、鏈路很長的賽道,從預訓練、中訓練到后訓練,每一環都要有人真正從第一性原理去思考“這個模塊應該怎么設計”。我們這支團隊本身就是科研味很重的團隊:有做世界模型和4D表征的,有做有理函數網絡和物理因果的,也有深度參與后訓練和軟硬協同的。我們的共識是——不要把現成的大模型往機器人身上“硬焊”,而是堅持在模型架構上做前沿探索,讓這個世界動作模型一開始就在設計層面適配物理世界。
第二,是讓模型在真實業務場景里反復迭代。我們的數據跟大廠采買的數據完全不同,我們是業務里真實回流的自然數據,所以我們的模型在真實世界的交互中成長,而不是在實驗室里閉門造車。我們內部把我們的數據稱作“4D+X”。
更關鍵的是,這些數據和我們自己設計的世界動作模型架構是匹配的——數據來自真實世界的物理交互,我們的模型結構本身也是圍繞真實物理世界的4D軌跡去建模的,兩者是對得上的。這樣一來,模型能力每迭代一輪,馬上就能在商業場景里體現出來;商業場景又會反過來源源不斷地喂給模型更豐富的長尾數據,逐步強化底座能力,最后形成一個別人很難復制的數據–模型–業務的正反饋閉環。
36氪:4D+X數據是什么意思?具體來說和普通數據的區別是什么?
王可澤:拆解一下,4D+X數據由兩部分構成:4D時空數據加一系列數據。4D數據從哪來?我們在探索物理AGI的過程中,最早把世界模型用到了零售場景,去理解空間信息和空間里人機交互的狀態。這里面4D又拆成3D加1D:3D是靜態空間里的點,1D是時序的變化,加了一個時間維度。這是空間幾何里的4D數據。但只有這些還不夠——我們要去工廠里打螺絲、要在物理世界里干活,所以又加了多種數據:一部分是接觸傳感器數據,比如觸覺、摩擦力這些傳感器數據;另一部分是語言標注的文本。
“演”出來的仿真軌跡,喂不飽真正的大腦。物理模型必須去嘈雜的產線、去充滿噪音的現實中長出肉身。
![]()
4D時空數據的表征示意圖
36氪:你們的數據如何形成正反饋哺育模型?
王可澤:我們每天都有真實業務的數據回流到整體的數據飛輪里。給一個量級的概念:我們的智能貨柜,每天會有幾萬個小時的數據回流到數據管線里來。我們現在訓練的數據規模也在朝百萬小時的量級走。很多人也在講百萬小時,但我們的百萬小時里,都是在真實場景里采集的4D+X數據,這個差異非常大。
別人還在采數據,我們已經在生產數據了。我們收集回來的這些數據有個名字,叫“人類的富交互數據”。我們在真實業務場景業務中已經積累了數千萬小時富人類交互的數據資產,其中用以預訓練的數據達數百萬。這些能夠很好地支撐我們提取前期需要的4D數據。
當然,要實現AGI還需要補充大量不同場景的數據,所以我們也會補充一些互聯網的Human-centric數據和Ego數據。
36氪:當有了足夠多的真實數據后,你們對世界模型的認知是否有變化?
王可澤:有了真實數據,我們才能質疑現有架構:人操控物體的數據,模型為什么學不會?那明顯是架構問題。
真實業務系統跑起來后我們發現,每一次任務成功、失敗、人工接管、客戶反饋,都不是孤立事件,而是模型進化的燃料。那一刻我們意識到,創業公司最大的壁壘可能不只是算法,而是能不能構建一個持續產生高質量真實世界數據的業務閉環。這也是我們今天說“從真實世界中長出來的物理世界模型”的原因。它不是實驗室里封閉訓練出來的模型,而是在真實空間、真實任務、真實反饋和真實商業價值中不斷生長出來的模型。
你喂它干凈的樣本,它學會的是表演;你喂它真實的混亂,它學會的才是生存。
GPT時刻前夜,
首先找到落地場景
36氪:大家都在提“ChatGPT時刻”,你覺得我們到底走到哪一步了?
王可澤:具身智能一定要有自己的底座模型,這樣才能真正迎來下一個GPT時刻。此外,我們對技術本身有近乎樸素的信任。不是先去想怎么講一個更大的故事,而是先想這個問題到底有沒有被真正解決;不是先迎合市場上最熱的路線,而是反復問自己,哪一條路更接近物理世界的本質。很多時候,這條路不會最熱鬧,也不會最容易被理解,但如果真實場景持續給我們反饋,我們就愿意沿著它繼續走下去。
從團隊的總體共識來看,物理AGI現在到了“GPT-2.0到3.0”的階段。一年前看這件事覺得很早,但數據的爆發和模型的提升不是線性的增長,是指數級的增長,所以時間可能還會不斷提速。
36氪:在這個階段,其實亂象也很多,你自己觀察到的泡沫是什么樣的?
王可澤:首先是數據的角度,大量的數采中心遍布全國各地,但刻意的操作是不豐富、不多樣、也不真實的。而我們的數據配方里,機器本體數據的比例非常低,只有5%需要后訓練。只要Few Shots就可以閉環。
其次,數據上去之后,更大的問題是架構不行。目前普遍的VLA架構,泛化性明顯太差,圍繞它打再多補丁也于事無補,必須圍繞物理基座模型去做架構。而我們底座模型足夠好,后續部署和適配能以非常低的成本完成,顯著優于友商。
最后,從產業角度看,現在的Demo過于營銷化。物理AGI機器人在物理世界能干的事,還遠沒達到宣傳的程度。
36氪:現在你們的世界模型,主要落地在哪些真實行業場景里?
王可澤:真正的智能系統,如果要在現實世界里工作,就必須從這些復雜數據中學習,而不是只在理想環境里學習。這也是我們為什么強調“從真實業務數據中長出來”。
我們的模型已經長期部署在無人零售場景,每天承載和優化的真實服務次數接近500萬次,在“世界模型賦能零售”這個方向上已經走到行業的絕對頭部。
同時,我們正在把這套世界動作模型應用到更多半結構化的真實場景中,一端連接線下零售,另一端逐步延伸到工業場景,比如各類上下料、分揀搬運、線束插拔等,用同一套世界動作模型去打通。能夠真正把傳統行業拉出一個數量級差距的,不是“干凈的數據集模型考試”,而是模型在真實業務里的長期實戰和迭代。
36氪:落地工業已經是行業共識,你們是怎樣的策略?
王可澤:我們的策略是做“N+1”與尋找Sweet Spot:不重新定義生產環境,只解決末端需要具身智能處理的一小部分任務(如SKU、材質、光線千變萬化導致傳統協作機器人無法勝任的上下料環節),再規模化復制。
由于模型上限與泛化能力仍有差距,所以我們工業切入選擇制造行業的Sweet Spot,避免不切實際的過度承諾。
36氪:在工業上,你們落地了哪些場景?
王可澤:我們已落地了分揀搬運、上下料、線束插拔裝配等場景,今年團隊很興奮:不光在技術上有了Aha Moment,我們在商業階段也實現了階段性的泛化,以兩三倍的速度成長。經歷了前期的探索和寒窗苦讀之后,我確定我們迎來了一個階段性的爆發。
![]()
服務產業POC的渲染圖
做物理AGI時代的機器人大腦
36氪:你認為X-Era Lab區別于國內外頂級具身團隊的基因是什么?
王可澤:我們的基因是一支科學家團隊,但也是一群既懂技術又能搞落地的團隊。我們扎根在大灣區,不僅和歐美名校的頂尖科學家們一起搞研發,核心成員還都是從華為、商湯出來的,會去無限追求模型智能的涌現,以及架構上的創新。但物理AGI跟數字AGI不太一樣,它還比較早期,很多環節都沒有收斂,所以我們要自己去做應用和閉環。我們在不斷追求模型上限、追求智能涌現的過程中,還是要進入場景,自己做端到端的解決方案和閉環,來做模型的后訓練。
所以,我們培養年輕人,最重要的是讓他們盡早進入真實問題。我們希望他們能看到真實產業是怎么運轉的:客戶為什么付費、系統為什么失敗、數據為什么有價值、模型最終如何被業務指標驗證。我們創始人從很開始就特別強調“一日為師,終身為友”,希望我們站在真理這一邊,而不是站在等級那一邊,這也是我們能堅持到現在的原因。
這也是我們團隊最大的特色:背后有很強研發與創新源泉、有天花板,但也足夠扎實、能落地、能“扎到泥土里”,“仰望星空,腳踏實地”。
物理AGI的終局,是一場數字智能對物質世界的全面重構。X-Era Lab正在用最硬核的底層框架,為千行百業的機器人編織一顆能讀懂物理因果的大腦。真正讓X-Era Lab站得更遠的,從來不是某一款模型,而是它身后那座源源不斷的研發儲備——既扎在最底層的原理,深入最嘈雜的現實,又始終頂在最前沿的無人區,才是這家公司穿越周期的護城河。從無人貨柜的微觀碰撞,到產線上千變萬化的復雜POC場景,那些曾讓傳統自動化折戟的難題,正被逐一解構。未來,當千萬臺搭載著通用物理基座模型的機器人走向工廠、走向千家萬戶,它們睜開眼看到的將是整片星辰大海。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.