![]()
ROBOT INDUSTRY
當(dāng)具身智能邁向通用化,核心壁壘已從硬件轉(zhuǎn)向底層認知大模型與真實數(shù)據(jù)。酷哇以自研通用世界模型Coowa WAM 2.0為核心,在復(fù)雜城市場景中打通算法、終端到RaaS商業(yè)閉環(huán),構(gòu)建起“商業(yè)落地反哺AI認知”的正向數(shù)據(jù)飛輪,用物理AI重算城市服務(wù)總賬。
![]()
不同于在實驗室打磨參數(shù)或執(zhí)著于雙足行走的同行,酷哇科技有限公司(以下簡稱“酷哇”)聯(lián)合創(chuàng)始人兼COO李柯宏認為,自動駕駛與具身智能正處于從專用任務(wù)系統(tǒng)向通用物理智能演進的關(guān)鍵階段。
酷哇選擇以自研通用世界模型Coowa WAM 2.0為技術(shù)底座,通過智慧出行(自動駕駛小巴CooBus)、智慧物業(yè)(輪足機器人R0、四足機器人D0)和智慧城市管家(“麒麟”“獨角獸”系列)三大終端矩陣,成為業(yè)內(nèi)唯一同時進駐北上廣深開展常態(tài)化服務(wù)的具身智能企業(yè),手握超50億元訂單,并率先實現(xiàn)經(jīng)營性盈利。
1
最復(fù)雜的開放物理世界是具身智能的“最佳試驗場”
![]()
當(dāng)大多數(shù)機器人公司還在封閉園區(qū)或結(jié)構(gòu)化道路上打磨算法時,酷哇在2016年就做出了一個在當(dāng)時看來頗為大膽的決定:直接切入城市開放環(huán)境。李柯宏解釋道:“我們必須找到一個能規(guī)模化落地的場景,這個場景要有足夠大的量,能覆蓋城市運營中各種長尾案例,同時包含非結(jié)構(gòu)化和結(jié)構(gòu)化場景,可以訓(xùn)練系統(tǒng)的泛化移動與泛化操作能力。”城市空間治理恰好滿足了所有條件:需求明確、市場空間大、技術(shù)可迭代性強,更關(guān)鍵的是,這個行業(yè)很早就出現(xiàn)了人力缺口的拐點。
![]()
圖1 酷哇科技聯(lián)合創(chuàng)始人兼COO 李柯宏
酷哇要打造的是通用的物理AI,而物理AI的前置條件是同時滿足算法、算力和數(shù)據(jù)量—前兩者有方法論可解,但數(shù)據(jù)沒有捷徑。研發(fā)團隊發(fā)現(xiàn),實現(xiàn)泛化移動的核心在于對“Free Space”(自由可行駛空間)的精準解析,這是通往物理AGI的必經(jīng)之路。只有在最復(fù)雜的開放物理世界中“摸爬滾打”,才能積累起真正驅(qū)動模型進化的高質(zhì)量數(shù)據(jù)。
李柯宏強調(diào):“今天講機器人或自動駕駛落地,缺的就是數(shù)據(jù)語料。環(huán)衛(wèi)場景下的語料恰好是非結(jié)構(gòu)化的,人行道與主干道最大的差異在于結(jié)構(gòu)不規(guī)則,沒有車道線、‘馬路牙子’等明確規(guī)則;動態(tài)參與物以人為主,更偏向機器人交互;也沒有明確的交通規(guī)則。基于這三點,這類數(shù)據(jù)的多樣性、豐富度都有非常大的優(yōu)勢。”這種在真實物理世界中積累的數(shù)據(jù),與仿真數(shù)據(jù)有著本質(zhì)區(qū)別。仿真依賴于人為定義的規(guī)則,而真實世界是無序、隨機的。
李柯宏舉例說:“比如,小攤小販擺攤,鋪個草墊賣瓜果,瓜果種類無窮無盡,擺放方式隨機,仿真做不出來。只有盡可能覆蓋所有真實數(shù)據(jù),智能化才能實現(xiàn)質(zhì)的飛躍,就像大語言模型一樣—當(dāng)數(shù)據(jù)量足夠大時,智能就會涌現(xiàn)。”
![]()
圖2 酷哇科技R0輪足機器人
正是基于這一認知,酷哇將城市服務(wù)作為核心試驗場,將機器人投入到最復(fù)雜、最高頻的非結(jié)構(gòu)化環(huán)境中進行“壓力測試”。在實際部署過程中,酷哇遇到的困難,來自對“產(chǎn)品”二字的重新定義。李柯宏坦言,客戶對VLA、VLM以及世界模型的關(guān)注度,遠低于對技術(shù)和產(chǎn)品具體能解決什么問題、能帶來多少經(jīng)濟效益的關(guān)注。這要求團隊在產(chǎn)品研發(fā)中,必須兼顧實用性、價格和長期技術(shù)延展性。
作為端側(cè)模型驅(qū)動的物理載體,硬件需要從最底層對軟硬一體進行定義并正向設(shè)計:“比如,我們的最小市政作業(yè)機器人尺寸應(yīng)如何界定?輔助執(zhí)行部件需要具備何種性能?底盤關(guān)節(jié)應(yīng)如何根據(jù)視覺感知結(jié)果進行調(diào)校?這種對物理邊界的深刻理解,正是長期浸泡在開放場景中才能沉淀出的工程底蘊。”
2
世界模型+50Pb數(shù)據(jù),如何定義“真”智能?
![]()
當(dāng)具身智能行業(yè)熱議“世界模型”時,酷哇于2026年初正式發(fā)布了Coowa WAM 2.0(World-Action Model)通用世界模型底座。這一模型的核心,不是讓機器人變得更會“思考”,而是讓它能夠在執(zhí)行物理動作前深刻理解三維空間,在腦海中完成對物理定律和未來狀態(tài)的億萬次預(yù)演與試錯。
酷哇構(gòu)建的WAM 2.0,本質(zhì)上是一套類生物神經(jīng)系統(tǒng)的雙流架構(gòu)。它將人類認知機理中的“快思考”與“慢思考”引入機器人的決策系統(tǒng),在工程上凝練為四大技術(shù)支柱:基于語義的表征學(xué)習(xí)、基于視頻生成的未來預(yù)測、直覺行動系統(tǒng)、VLM宏觀約束。針對城市服務(wù)中低頻但邏輯復(fù)雜的長尾場景—比如理解交警手勢、判斷倒塌樹木的優(yōu)先級—酷哇引入了自研的UrbanVLM,承擔(dān)宏觀規(guī)劃與因果約束的職責(zé)。云端部署的UrbanVLM Large模型擁有320億參數(shù),負責(zé)全局任務(wù)編排;端側(cè)的UrbanVLM Tiny模型則部署在機器人邊緣側(cè),負責(zé)百毫秒級的語義風(fēng)險識別。李柯宏形象地解釋道:“我們系統(tǒng)中的VLM主要負責(zé)‘慢思考’,處理非標、復(fù)雜且非時間敏感的綜合治理需求,如識別路面病害并自主上報監(jiān)管部門;而本地端側(cè)的直覺模型則負責(zé)‘快思考’,解決高頻的物理交互與絕對安全問題。兩者在系統(tǒng)層級上各司其職。”
![]()
圖3 酷哇科技落地北京、上海、深圳等地
真正讓酷哇的技術(shù)底座具備顛覆性能力的,是超50PB的非結(jié)構(gòu)化真實世界數(shù)據(jù)集,其價值在于它全部來自真實的物理交互環(huán)境。李柯宏談道:“我們有現(xiàn)成的客戶和商業(yè)化空間,形成新的數(shù)據(jù)飛輪,迭代我們的通用操作算法。”在WAM 2.0的框架下,這些數(shù)據(jù)不再只是訓(xùn)練素材,而是構(gòu)成了“反事實推演”的現(xiàn)實基礎(chǔ)—模型通過學(xué)習(xí)海量的真實狀態(tài)-動作-結(jié)果三元組,逐漸在潛在空間中建立起對物理規(guī)律的統(tǒng)計認知,從而能夠在虛擬推演中生成符合物理邏輯的未來場景。
數(shù)據(jù)驅(qū)動的飛輪效應(yīng),直觀反映在Coowa WAM 2.0模型的泛化能力上。“由我們世界模型驅(qū)動的開放場景機器人不需要重度部署,直接放在路上就能用,遷移后的表現(xiàn)也能完全復(fù)制,因為我們的數(shù)據(jù)樣本已經(jīng)足夠多,覆蓋了一線、二線、三線城市、市中心、郊區(qū),甚至農(nóng)村。”李柯宏認為,中國的道路環(huán)境和行人行為預(yù)判,對于酷哇的模型而言,已不存在任何遷移成本。
![]()
在技術(shù)架構(gòu)上,酷哇巧妙地融合了“系統(tǒng)1”與“系統(tǒng)2”的分工協(xié)作。李柯宏解釋道:“VLM不介入安全執(zhí)行,它只處理復(fù)雜長程任務(wù)和非標低頻任務(wù)。直覺模型負責(zé)本地作業(yè)和安全,比如有人突然跳到機器人前10厘米,直接觸發(fā)物理制動,無需云端大模型判斷。有快思考的端側(cè)小模型在,安全就有保障。”
萬臺級終端部署量僅僅是通用智能的入場門檻,今年業(yè)內(nèi)可能將有不止一家公司達到這一量級,這個規(guī)模的數(shù)據(jù)能夠涌現(xiàn)出優(yōu)秀的空間移動能力,但在長程精細化操作和復(fù)雜物理協(xié)同上仍需突破,距離具身智能的“GPT時刻”仍有距離。李柯宏判斷:“預(yù)計在未來2~3年內(nèi),當(dāng)行業(yè)率先跑通十萬臺規(guī)模的異構(gòu)具身終端常態(tài)化作業(yè)時,交匯出的海量多模態(tài)真值數(shù)據(jù),才有機會真正催生出通用物理AI的涌現(xiàn)。”
3
從“一腦多態(tài)”到通用機器人的商業(yè)閉環(huán)
![]()
當(dāng)行業(yè)對雙足人形機器人趨之若鶩時,酷哇卻選擇了更為務(wù)實的路徑:輪足復(fù)合形態(tài)加高自由度機械臂,以及各類城市服務(wù)專機。李柯宏以實際產(chǎn)品舉例,雙輪或四輪移動效率更高,單臂或雙臂取決于是否需要雙手協(xié)作以及長程任務(wù)處理能力。“這些會精確到產(chǎn)品形態(tài)。但我們也在某些模塊和原子執(zhí)行器件上做通用設(shè)計,方便操作數(shù)據(jù)對齊。”
這種“一腦多態(tài)”的思路,使得酷哇能夠用一個通用底層模型,覆蓋不同物理形態(tài)的產(chǎn)品。李柯宏算了一筆賬:“僅一個街區(qū)的綜合服務(wù),我們算下來就需要數(shù)個SKU的機器人去協(xié)同完成不同功能。如果把視角放寬到全城物理空間管理,可能需要十幾二十種產(chǎn)品。不能指望一種硬件形態(tài)解決所有真實物理問題,就像不能用通用火箭發(fā)射所有衛(wèi)星。”而支撐這一產(chǎn)品矩陣的,正是酷哇自研的世界模型。
![]()
圖4 酷哇科技參與深圳環(huán)衛(wèi)機器人大賽
酷哇很早就確立了MaaS(Mobility-as-a-Service)統(tǒng)包運營模式,而不是單純賣設(shè)備。李柯宏解釋道:“客戶根本不關(guān)心你的自動駕駛怎么做的,他們只關(guān)心你能解決什么問題、帶來多少經(jīng)濟性。”基于這一洞察,酷哇采取了“直接給結(jié)果”的商業(yè)模式,這種模式對全棧自研能力提出了極高要求,但也正是這種倒逼機制,讓酷哇不得不持續(xù)優(yōu)化模型以降低成本、提升效率。過去三五年,酷哇的復(fù)購率接近100%,客單價每年上漲,四年翻了一倍多,客戶數(shù)也翻倍。
能夠?qū)崿F(xiàn)盈利的關(guān)鍵,在于世界模型大幅降低了邊際部署成本。李柯宏指出:“我們不依靠人工預(yù)部署,而是依靠算法能力在端側(cè)的封裝,移動能力在新環(huán)境的部署成本基本為零。從數(shù)據(jù)看,公司業(yè)務(wù)規(guī)模過去三年翻了三倍,而系統(tǒng)維護與部署成本控制與三年前基本持平,技術(shù)毛利能完全覆蓋成本。這得益于早期在底座模型上進行了大量前瞻性研發(fā)投入。”
4
RoboCity落地路徑在于“全局智能”
![]()
在酷哇的長期戰(zhàn)略規(guī)劃中,其業(yè)務(wù)終局并非單一場景的智能升級,而是構(gòu)建由統(tǒng)一世界模型驅(qū)動的“RoboCity(機器人生態(tài)城)”。在該框架下,形態(tài)各異的具身智能終端將不再作為獨立信息孤島運行,而是通過一套系統(tǒng)實現(xiàn)環(huán)境認知的全局共享與任務(wù)的實時協(xié)同。李柯宏強調(diào),RoboCity不是創(chuàng)造一個全新的、只有機器人的世界,而是讓物理AI自然地融入人類的日常生活。
從商業(yè)化角度看,推動RoboCity落地面臨著碎片化采購方的現(xiàn)實挑戰(zhàn)。街道辦管人行道,城管管路網(wǎng),物業(yè)管小區(qū)——面對這種多頭管理的格局,酷哇如何推動他們接受統(tǒng)一的“城市服務(wù)總包”模式?“核心看需求。他們底層需求都一樣:招工難,人力成本高,但需要拆開來看工種、工序和具體環(huán)境。我們基于這個結(jié)構(gòu)性痛點,用具身智能做了大腦的解決方案,并針對不同的客戶類型做了多重解決方案。”這種以需求為錨點的商業(yè)邏輯,使得酷哇能夠穿透客戶壁壘,將分散的采購方凝聚到統(tǒng)一的解決方案之下。
![]()
圖5 Coobus進行城市內(nèi)接駁
展望未來,李柯宏對輪足式具身智能機器人的發(fā)展寄予厚望,但同時也保持著清醒的認知:“具身智能機器人發(fā)展的意義更多是讓客戶在形態(tài)和交互上接受物理AI這件事。自動駕駛已經(jīng)有近20年歷史,接受度逐漸提高,我們能看到智駕的拐點也許已經(jīng)來了,但全場景的通用泛化機器人普及仍需時間。”他認為,帶有機械臂的輪足形態(tài)終端是RoboCity拼圖中不可或缺的一塊,解決了傳統(tǒng)輪式機器人無法逾越臺階、路沿的地形桎梏,真正實現(xiàn)了“全域、全時段、全地形”的三維空間無人化服務(wù)。
“我們想做的是通用物理AI的基建提供商”。李柯宏描繪了酷哇的“三步走”戰(zhàn)略:短期是城市空間管理,中期是工業(yè)制造,如機器人造機器人,長期進入家庭,成為消費級智能終端。“我們希望以世界模型為基礎(chǔ)模型的大腦能參與到所有通過機器人執(zhí)行的物理交互場景中,這將深刻改變未來的社會經(jīng)濟結(jié)構(gòu)。”李柯宏談道。
閱讀更多內(nèi)容,歡迎訂購《機器人產(chǎn)業(yè)》雜志。
點擊跳轉(zhuǎn)!圈內(nèi)人都在看的專家觀點
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.