![]()
ROBOT INDUSTRY
世界模型作為連接人工智能與物理世界的核心技術(shù)底座,通過(guò)學(xué)習(xí)現(xiàn)實(shí)世界的物理特性、空間動(dòng)態(tài)與因果關(guān)系構(gòu)建內(nèi)部表征,實(shí)現(xiàn)環(huán)境理解、狀態(tài)預(yù)測(cè)和行動(dòng)規(guī)劃,被視為實(shí)現(xiàn)通用人工智能( AGI )的關(guān)鍵路徑。
![]()
當(dāng)前,全球科技巨頭加速卡位布局,技術(shù)迭代與產(chǎn)業(yè)應(yīng)用同步推進(jìn),但也面臨諸多瓶頸。本文將系統(tǒng)分析世界模型的發(fā)展態(tài)勢(shì)與核心挑戰(zhàn),提出針對(duì)性對(duì)策建議,為推動(dòng)產(chǎn)業(yè)高質(zhì)量發(fā)展提供參考。
1
世界模型發(fā)展態(tài)勢(shì)分析
![]()
全球競(jìng)爭(zhēng)格局:巨頭領(lǐng)銜賽道,中美主導(dǎo)博弈
全球世界模型領(lǐng)域已形成“巨頭領(lǐng)跑、中小企業(yè)跟進(jìn)”的競(jìng)爭(zhēng)格局,美國(guó)憑借技術(shù)先發(fā)優(yōu)勢(shì)占據(jù)主導(dǎo)地位,我國(guó)企業(yè)全面跟進(jìn)并聚焦應(yīng)用突破,形成雙雄并立、各有優(yōu)勢(shì)的發(fā)展態(tài)勢(shì)。
美國(guó)世界模型產(chǎn)業(yè)以科技巨頭為核心,構(gòu)建了全鏈條布局優(yōu)勢(shì)。以“通用大模型+垂直微調(diào)”為主,強(qiáng)調(diào)模型規(guī)模效應(yīng)和泛化能力。谷歌DeepMind持續(xù)領(lǐng)跑通用場(chǎng)景世界模型研發(fā),從Genie初代到2025年發(fā)布的Genie 3,實(shí)現(xiàn)了從圖像生成虛擬環(huán)境到文本驅(qū)動(dòng)實(shí)時(shí)交互的跨越式升級(jí),其720p分辨率、24幀/秒的實(shí)時(shí)生成能力及分鐘級(jí)場(chǎng)景一致性,樹(shù)立了行業(yè)技術(shù)標(biāo)桿。英偉達(dá)憑借底層算力與生態(tài)優(yōu)勢(shì)形成壟斷性壁壘,一方面,通過(guò)Omniverse物理AI操作系統(tǒng)統(tǒng)一3D格式與仿真標(biāo)準(zhǔn),成為行業(yè)基礎(chǔ)設(shè)施;另一方面,推出經(jīng)過(guò)9000萬(wàn)億token訓(xùn)練的Cosmos世界模型,精準(zhǔn)適配機(jī)器人、自動(dòng)駕駛等領(lǐng)域的極端場(chǎng)景訓(xùn)練需求,同時(shí)通過(guò)GPU算力供應(yīng)掌控全球多數(shù)項(xiàng)目的研發(fā)命脈。Meta則依托VR/AR技術(shù)積累,以V-JEPA系列模型深耕視頻訓(xùn)練與具身智能控制,其V-JEPA 2僅需62小時(shí)機(jī)器人數(shù)據(jù)即可完成規(guī)劃與控制模型訓(xùn)練,展現(xiàn)出強(qiáng)大的效率優(yōu)勢(shì)。此外,“AI教母”李飛飛創(chuàng)辦的World Labs等初創(chuàng)企業(yè),從空間智能等垂直領(lǐng)域切入,進(jìn)一步豐富了美國(guó)的產(chǎn)業(yè)生態(tài)。
我國(guó)世界模型產(chǎn)業(yè)呈現(xiàn)“應(yīng)用驅(qū)動(dòng)、多點(diǎn)突破”的發(fā)展特征。側(cè)重“行業(yè)大模型+場(chǎng)景適配”,在自動(dòng)駕駛、具身智能等垂直領(lǐng)域應(yīng)用成熟度較高。企業(yè)布局聚焦自動(dòng)駕駛、具身智能等核心場(chǎng)景,車(chē)企與科技巨頭協(xié)同推進(jìn)技術(shù)落地。蔚來(lái)率先發(fā)布國(guó)內(nèi)首個(gè)智能駕駛世界模型NIO World Model,商湯絕影推出“開(kāi)悟”世界模型及“悟能”具身智能平臺(tái),華為、騰訊、昆侖萬(wàn)維等企業(yè)也相繼發(fā)布盤(pán)古世界模型、混元3D世界模型、Matrix-Zero系列模型等成果,其中騰訊混元3D世界模型實(shí)現(xiàn)開(kāi)源,昆侖萬(wàn)維Matrix-Game 2.0成為業(yè)內(nèi)首個(gè)通用場(chǎng)景實(shí)時(shí)交互開(kāi)源方案。應(yīng)用層面,高德地圖基于自研世界模型推出飛行街景、AR實(shí)景等功能,帶動(dòng)高精度數(shù)據(jù)采集、智能交通等上下游產(chǎn)業(yè)發(fā)展,展現(xiàn)出世界模型賦能實(shí)體經(jīng)濟(jì)的巨大潛力。整體來(lái)看,我國(guó)在應(yīng)用落地與工程化能力上優(yōu)勢(shì)明顯,但在底層技術(shù)與生態(tài)構(gòu)建上仍存在差距。
技術(shù)發(fā)展現(xiàn)狀:掩碼范式成核心,多模態(tài)融合加速
世界模型技術(shù)正處于快速迭代期,核心技術(shù)路徑逐步清晰,多模態(tài)融合與交互能力持續(xù)提升。最新研究明確,真正的世界模型并非單一模型,而是由生成系統(tǒng)、交互系統(tǒng)、記憶系統(tǒng)構(gòu)成的有機(jī)整體,其中生成系統(tǒng)承載物理法則模擬,交互系統(tǒng)實(shí)現(xiàn)環(huán)境與智能體的閉環(huán)互動(dòng),記憶系統(tǒng)保障時(shí)間維度的場(chǎng)景連貫性。
掩碼(Masking)范式已成為跨模態(tài)建模的核心技術(shù)路徑,推動(dòng)世界模型從“技巧應(yīng)用”向“生成原則”升級(jí)。從NLP領(lǐng)域的離散擴(kuò)散模型,到視覺(jué)領(lǐng)域的MAE、MaskGIT等并行生成技術(shù),再到VideoMAE的時(shí)空掩碼、wav2vec 2.0的音頻掩碼,掩碼范式實(shí)現(xiàn)了對(duì)文本、圖像、視頻、3D點(diǎn)云等多模態(tài)數(shù)據(jù)的統(tǒng)一表征學(xué)習(xí)。這種技術(shù)路徑不僅提升了生成質(zhì)量與推理效率,更推動(dòng)世界模型從“拼湊式多模態(tài)”向“統(tǒng)一架構(gòu)多模態(tài)”演進(jìn),形成語(yǔ)言先驗(yàn)與視覺(jué)先驗(yàn)兩大技術(shù)陣營(yíng),其中基于掩碼的離散擴(kuò)散路線憑借雙向注意力優(yōu)勢(shì),在視覺(jué)生成質(zhì)量上展現(xiàn)出超越自回歸路線的潛力。
實(shí)時(shí)交互與物理仿真能力成為技術(shù)競(jìng)爭(zhēng)焦點(diǎn)。國(guó)際領(lǐng)先模型已實(shí)現(xiàn)文本驅(qū)動(dòng)的實(shí)時(shí)動(dòng)態(tài)世界生成,谷歌Genie 3支持“可提示的世界事件”,能通過(guò)文本指令改變環(huán)境參數(shù);英偉達(dá)Cosmos模型在流體力學(xué)、剛體動(dòng)力學(xué)等復(fù)雜物理場(chǎng)景模擬上精度優(yōu)異,預(yù)測(cè)誤差低于5%。我國(guó)模型在實(shí)時(shí)幀率、分辨率等指標(biāo)上逐步追平國(guó)際水平,如騰訊WorldPlay實(shí)現(xiàn)生成24幀/秒720p交互式視頻,但在物理一致性、因果推理能力上仍有差距,動(dòng)態(tài)場(chǎng)景預(yù)測(cè)誤差普遍超過(guò)15%,單目視頻4D重建的泛化能力不足。
![]()
產(chǎn)業(yè)應(yīng)用前景:千億市場(chǎng)開(kāi)啟,多領(lǐng)域賦能升級(jí)
世界模型的核心價(jià)值在于通過(guò)虛擬仿真降低真實(shí)場(chǎng)景訓(xùn)練成本、拓展應(yīng)用邊界,已在多個(gè)領(lǐng)域展現(xiàn)出商業(yè)化潛力,被預(yù)判為下一個(gè)千億美元級(jí)賽道。其應(yīng)用場(chǎng)景可分為三大核心領(lǐng)域:一是智能駕駛與智能交通,通過(guò)數(shù)字孿生城市模擬極端路況,降低自動(dòng)駕駛測(cè)試成本,提升交通調(diào)度效率,如高德與千方科技合作的城市大腦解決方案,已接入全國(guó)200余個(gè)城市并實(shí)現(xiàn)顯著盈利增長(zhǎng),預(yù)計(jì)兩年內(nèi)實(shí)現(xiàn)L3級(jí)商業(yè)化落地,世界模型用于極端場(chǎng)景生成和仿真測(cè)試;二是具身智能與工業(yè)制造,機(jī)器人可在虛擬環(huán)境中完成海量訓(xùn)練,規(guī)避真機(jī)損耗,優(yōu)必選Walker系列人形機(jī)器人已在工業(yè)場(chǎng)景應(yīng)用實(shí)現(xiàn)由“原型階段”進(jìn)入“有限商業(yè)化”,預(yù)期服務(wù)機(jī)器人(家庭、醫(yī)療)發(fā)展步伐將不斷加快;三是生活服務(wù)與娛樂(lè),飛行街景、AR導(dǎo)航、開(kāi)放世界游戲生成等功能,推動(dòng)消費(fèi)體驗(yàn)升級(jí)與數(shù)字經(jīng)濟(jì)發(fā)展,高德掃街榜日活躍用戶超4000萬(wàn)戶,為本地生活商家?guī)?lái)顯著流量增量。此外,世界模型在醫(yī)療導(dǎo)航、應(yīng)急響應(yīng)等公共服務(wù)領(lǐng)域的應(yīng)用也在逐步拓展,如高德“急救導(dǎo)航”功能已將杭州急救響應(yīng)時(shí)間縮短18%。
核心發(fā)展瓶頸:技術(shù)、生態(tài)與成本三重制約
盡管世界模型發(fā)展勢(shì)頭迅猛,但仍面臨多重瓶頸。技術(shù)層面,因果推理能力缺失,核心短板集中在因果推理與物理建模、大規(guī)模仿真能力兩大領(lǐng)域。國(guó)內(nèi)模型多以感知壓縮為主,對(duì)物理規(guī)律的深層理解不足,復(fù)雜場(chǎng)景下的泛化能力與魯棒性較弱;單場(chǎng)景實(shí)體并行仿真規(guī)模僅為百萬(wàn)級(jí),端到端延遲超過(guò)300ms,與國(guó)際領(lǐng)先的億級(jí)實(shí)體、100ms以內(nèi)延遲存在較大差距。生態(tài)層面,開(kāi)源生態(tài)成熟度不足,國(guó)產(chǎn)工具鏈功能完整性約為國(guó)外的60%,核心算法依賴授權(quán),開(kāi)發(fā)者社區(qū)規(guī)模僅為美國(guó)的1/5;同時(shí),3D數(shù)據(jù)格式不統(tǒng)一、跨平臺(tái)兼容性差等問(wèn)題,制約了產(chǎn)業(yè)協(xié)同發(fā)展。成本層面,算力與數(shù)據(jù)成本過(guò)高,高端算力依賴進(jìn)口,英偉達(dá)A100/H100 GPU壟斷訓(xùn)練市場(chǎng),國(guó)產(chǎn)主流算力芯片性能僅為A100的70%,導(dǎo)致模型訓(xùn)練與推理成本較國(guó)際水平高出30%~50%;高精度數(shù)據(jù)采集成本高、合成數(shù)據(jù)質(zhì)量不足(Sim-to-Real誤差超過(guò)8%)等問(wèn)題,進(jìn)一步推高了產(chǎn)業(yè)落地成本。此外,泛化能力不足,模型在訓(xùn)練數(shù)據(jù)分布外場(chǎng)景表現(xiàn)差,如自動(dòng)駕駛模型在極端天氣、罕見(jiàn)事故場(chǎng)景中失效率高;可解釋性差,模型決策過(guò)程如同“黑箱”,難以追溯推理路徑,在醫(yī)療、司法等高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用受限。
2
世界模型發(fā)展對(duì)策建議
![]()
技術(shù)攻堅(jiān):聚焦核心短板,構(gòu)建分層突破體系
針對(duì)技術(shù)瓶頸,構(gòu)建“基礎(chǔ)研究+關(guān)鍵技術(shù)+應(yīng)用驗(yàn)證”的分層突破體系,集中力量攻克核心短板。一是強(qiáng)化基礎(chǔ)理論研究,著力支持因果機(jī)器學(xué)習(xí)、物理約束建模、掩碼范式優(yōu)化等前沿方向,鼓勵(lì)高校與科研院所開(kāi)展“從0到1”的原創(chuàng)性研究,破解物理世界表征與因果推理的底層難題。建議設(shè)立世界模型專項(xiàng)科研基金,推動(dòng)產(chǎn)學(xué)研協(xié)同攻關(guān),力爭(zhēng)將動(dòng)態(tài)場(chǎng)景物理預(yù)測(cè)誤差降至10%以內(nèi)。二是突破關(guān)鍵技術(shù)瓶頸,重點(diǎn)研發(fā)單目視頻4D重建、大規(guī)模并行仿真、跨模態(tài)語(yǔ)義對(duì)齊等核心技術(shù);加速國(guó)產(chǎn)算力芯片迭代,推動(dòng)華為昇騰、寒武紀(jì)等芯片的性能優(yōu)化與生態(tài)適配,構(gòu)建自主可控的分布式訓(xùn)練集群,不斷降低高端算力成本。三是評(píng)估體系構(gòu)建,依托自動(dòng)駕駛、工業(yè)制造等典型場(chǎng)景,搭建標(biāo)準(zhǔn)化的技術(shù)測(cè)試與驗(yàn)證體系,通過(guò)真實(shí)場(chǎng)景反饋推動(dòng)技術(shù)迭代,提升模型的魯棒性與泛化能力。
產(chǎn)業(yè)賦能:錨定優(yōu)勢(shì)場(chǎng)景,推動(dòng)規(guī)模化落地
立足國(guó)內(nèi)龐大的市場(chǎng)需求與產(chǎn)業(yè)基礎(chǔ),以應(yīng)用落地帶動(dòng)技術(shù)升級(jí),實(shí)現(xiàn)“場(chǎng)景-技術(shù)-產(chǎn)業(yè)”的良性循環(huán)。一是聚焦優(yōu)勢(shì)場(chǎng)景落地,優(yōu)先發(fā)展智能駕駛、智能交通、工業(yè)數(shù)字孿生等中國(guó)具有產(chǎn)業(yè)優(yōu)勢(shì)的領(lǐng)域,推動(dòng)世界模型與實(shí)體經(jīng)濟(jì)深度融合。鼓勵(lì)高德、蔚來(lái)等企業(yè)進(jìn)一步拓展應(yīng)用場(chǎng)景,完善“數(shù)據(jù)采集-模型訓(xùn)練-場(chǎng)景應(yīng)用”的產(chǎn)業(yè)閉環(huán);支持推進(jìn)數(shù)字孿生城市試點(diǎn),推動(dòng)世界模型在交通調(diào)度、應(yīng)急管理等公共服務(wù)領(lǐng)域的規(guī)模化應(yīng)用。二是培育細(xì)分賽道龍頭,引導(dǎo)中小企業(yè)避開(kāi)通用場(chǎng)景競(jìng)爭(zhēng),聚焦垂直領(lǐng)域做精做專,如醫(yī)療導(dǎo)航、游戲場(chǎng)景生成、特種機(jī)器人訓(xùn)練等細(xì)分方向,形成“頭部企業(yè)引領(lǐng)、中小企業(yè)補(bǔ)位”的產(chǎn)業(yè)格局。三是降低產(chǎn)業(yè)落地成本,推動(dòng)高精度數(shù)據(jù)共享平臺(tái)建設(shè),在保障數(shù)據(jù)安全的前提下,整合車(chē)企、地圖廠商、工業(yè)企業(yè)的數(shù)據(jù)資源,降低中小企業(yè)的數(shù)據(jù)獲取成本;同時(shí),推廣合成數(shù)據(jù)技術(shù)應(yīng)用,提升國(guó)產(chǎn)合成數(shù)據(jù)質(zhì)量,不斷提高合成數(shù)據(jù)在具身訓(xùn)練中的占比。
![]()
生態(tài)構(gòu)建:強(qiáng)化開(kāi)源協(xié)同,完善產(chǎn)業(yè)支撐體系
以開(kāi)源生態(tài)為核心,構(gòu)建全鏈條產(chǎn)業(yè)支撐體系,提升產(chǎn)業(yè)協(xié)同創(chuàng)新能力。一是推動(dòng)核心技術(shù)開(kāi)源共享,鼓勵(lì)企業(yè)開(kāi)放世界模型工具鏈與基礎(chǔ)模型,如騰訊混元3D世界模型、昆侖萬(wàn)維Matrix-Game等已開(kāi)源成果,擴(kuò)大開(kāi)發(fā)者社區(qū)規(guī)模;依托國(guó)內(nèi)開(kāi)源平臺(tái),建立世界模型開(kāi)源標(biāo)準(zhǔn)與評(píng)估體系,提升開(kāi)源項(xiàng)目的全球影響力。二是完善工具鏈與標(biāo)準(zhǔn)體系,聯(lián)合產(chǎn)學(xué)研力量研發(fā)完善世界模型開(kāi)發(fā)工具鏈,補(bǔ)齊數(shù)據(jù)標(biāo)注、模型訓(xùn)練、仿真測(cè)試等環(huán)節(jié)的工具短板;推進(jìn)3D數(shù)據(jù)格式、接口協(xié)議、安全規(guī)范等行業(yè)標(biāo)準(zhǔn)制定,解決跨平臺(tái)兼容性問(wèn)題,提升產(chǎn)業(yè)協(xié)同效率。三是構(gòu)建人才培養(yǎng)體系,高校增設(shè)世界模型相關(guān)專業(yè)方向,培養(yǎng)兼具物理建模、人工智能、行業(yè)場(chǎng)景知識(shí)的復(fù)合型人才;企業(yè)與高校共建實(shí)習(xí)實(shí)訓(xùn)基地,通過(guò)項(xiàng)目實(shí)踐提升人才的工程化能力,緩解產(chǎn)業(yè)人才短缺問(wèn)題。
政策保障:優(yōu)化發(fā)展環(huán)境,強(qiáng)化戰(zhàn)略引導(dǎo)
發(fā)揮政策引導(dǎo)作用,營(yíng)造良好發(fā)展環(huán)境,為世界模型產(chǎn)業(yè)發(fā)展提供有力支撐。一是加強(qiáng)頂層設(shè)計(jì),將世界模型納入國(guó)家人工智能相關(guān)發(fā)展規(guī)劃,明確中長(zhǎng)期發(fā)展目標(biāo)與重點(diǎn)任務(wù);各地結(jié)合產(chǎn)業(yè)基礎(chǔ)出臺(tái)配套政策,形成“國(guó)家引導(dǎo)、地方聯(lián)動(dòng)”的發(fā)展格局。二是加大政策扶持力度,對(duì)世界模型核心技術(shù)研發(fā)企業(yè)給予稅收優(yōu)惠、研發(fā)費(fèi)用加計(jì)扣除等支持;設(shè)立專項(xiàng)研發(fā)基金,支持基礎(chǔ)研究和關(guān)鍵技術(shù)攻關(guān);推動(dòng)政府采購(gòu)世界模型相關(guān)產(chǎn)品與服務(wù),為技術(shù)落地提供應(yīng)用場(chǎng)景;完善數(shù)據(jù)治理法規(guī),在保護(hù)隱私與促進(jìn)數(shù)據(jù)流通間取得平衡。三是深化國(guó)際合作與安全監(jiān)管,積極參與全球世界模型技術(shù)標(biāo)準(zhǔn)制定,加強(qiáng)與國(guó)際領(lǐng)先企業(yè)、科研機(jī)構(gòu)的技術(shù)交流與合作;建立世界模型安全評(píng)估體系,防范技術(shù)濫用帶來(lái)的倫理風(fēng)險(xiǎn)與安全隱患,保障產(chǎn)業(yè)健康發(fā)展。
3
結(jié)語(yǔ)
![]()
世界模型作為人工智能邁向通用智能的關(guān)鍵支撐,正開(kāi)啟千億級(jí)產(chǎn)業(yè)賽道,其發(fā)展水平直接決定未來(lái)在智能駕駛、具身智能等核心領(lǐng)域的產(chǎn)業(yè)話語(yǔ)權(quán)。當(dāng)前,中國(guó)世界模型發(fā)展呈現(xiàn)“應(yīng)用并跑、技術(shù)跟跑、生態(tài)滯后”的特征,既面臨底層技術(shù)與生態(tài)構(gòu)建的挑戰(zhàn),也擁有市場(chǎng)規(guī)模、產(chǎn)業(yè)基礎(chǔ)的獨(dú)特優(yōu)勢(shì)。未來(lái),需通過(guò)技術(shù)攻堅(jiān)突破核心瓶頸,以產(chǎn)業(yè)賦能實(shí)現(xiàn)規(guī)模化落地,靠生態(tài)構(gòu)建提升協(xié)同效率,用政策保障優(yōu)化發(fā)展環(huán)境,推動(dòng)世界模型產(chǎn)業(yè)高質(zhì)量發(fā)展,為搶占全球人工智能產(chǎn)業(yè)制高點(diǎn)奠定堅(jiān)實(shí)基礎(chǔ)。
本文作者:
王厚芹 中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院科技處副處長(zhǎng)
張玲寧 中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院軟件與集成電路評(píng)測(cè)中心黨委副書(shū)記
閱讀更多內(nèi)容,歡迎訂購(gòu)《機(jī)器人產(chǎn)業(yè)》雜志。
點(diǎn)擊跳轉(zhuǎn)!圈內(nèi)人都在看的專家觀點(diǎn)
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.