網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

世界模型發(fā)展分析與對(duì)策建議

2026-05-25 17:57:56　來(lái)源: 雷克智能

北京舉報(bào)

分享至

ROBOT INDUSTRY

世界模型作為連接人工智能與物理世界的核心技術(shù)底座，通過(guò)學(xué)習(xí)現(xiàn)實(shí)世界的物理特性、空間動(dòng)態(tài)與因果關(guān)系構(gòu)建內(nèi)部表征，實(shí)現(xiàn)環(huán)境理解、狀態(tài)預(yù)測(cè)和行動(dòng)規(guī)劃，被視為實(shí)現(xiàn)通用人工智能（ AGI ）的關(guān)鍵路徑。

當(dāng)前，全球科技巨頭加速卡位布局，技術(shù)迭代與產(chǎn)業(yè)應(yīng)用同步推進(jìn)，但也面臨諸多瓶頸。本文將系統(tǒng)分析世界模型的發(fā)展態(tài)勢(shì)與核心挑戰(zhàn)，提出針對(duì)性對(duì)策建議，為推動(dòng)產(chǎn)業(yè)高質(zhì)量發(fā)展提供參考。

世界模型發(fā)展態(tài)勢(shì)分析

全球競(jìng)爭(zhēng)格局：巨頭領(lǐng)銜賽道，中美主導(dǎo)博弈

全球世界模型領(lǐng)域已形成“巨頭領(lǐng)跑、中小企業(yè)跟進(jìn)”的競(jìng)爭(zhēng)格局，美國(guó)憑借技術(shù)先發(fā)優(yōu)勢(shì)占據(jù)主導(dǎo)地位，我國(guó)企業(yè)全面跟進(jìn)并聚焦應(yīng)用突破，形成雙雄并立、各有優(yōu)勢(shì)的發(fā)展態(tài)勢(shì)。

美國(guó)世界模型產(chǎn)業(yè)以科技巨頭為核心，構(gòu)建了全鏈條布局優(yōu)勢(shì)。以“通用大模型+垂直微調(diào)”為主，強(qiáng)調(diào)模型規(guī)模效應(yīng)和泛化能力。谷歌DeepMind持續(xù)領(lǐng)跑通用場(chǎng)景世界模型研發(fā)，從Genie初代到2025年發(fā)布的Genie 3，實(shí)現(xiàn)了從圖像生成虛擬環(huán)境到文本驅(qū)動(dòng)實(shí)時(shí)交互的跨越式升級(jí)，其720p分辨率、24幀/秒的實(shí)時(shí)生成能力及分鐘級(jí)場(chǎng)景一致性，樹(shù)立了行業(yè)技術(shù)標(biāo)桿。英偉達(dá)憑借底層算力與生態(tài)優(yōu)勢(shì)形成壟斷性壁壘，一方面，通過(guò)Omniverse物理AI操作系統(tǒng)統(tǒng)一3D格式與仿真標(biāo)準(zhǔn)，成為行業(yè)基礎(chǔ)設(shè)施；另一方面，推出經(jīng)過(guò)9000萬(wàn)億token訓(xùn)練的Cosmos世界模型，精準(zhǔn)適配機(jī)器人、自動(dòng)駕駛等領(lǐng)域的極端場(chǎng)景訓(xùn)練需求，同時(shí)通過(guò)GPU算力供應(yīng)掌控全球多數(shù)項(xiàng)目的研發(fā)命脈。Meta則依托VR/AR技術(shù)積累，以V-JEPA系列模型深耕視頻訓(xùn)練與具身智能控制，其V-JEPA 2僅需62小時(shí)機(jī)器人數(shù)據(jù)即可完成規(guī)劃與控制模型訓(xùn)練，展現(xiàn)出強(qiáng)大的效率優(yōu)勢(shì)。此外，“AI教母”李飛飛創(chuàng)辦的World Labs等初創(chuàng)企業(yè)，從空間智能等垂直領(lǐng)域切入，進(jìn)一步豐富了美國(guó)的產(chǎn)業(yè)生態(tài)。

我國(guó)世界模型產(chǎn)業(yè)呈現(xiàn)“應(yīng)用驅(qū)動(dòng)、多點(diǎn)突破”的發(fā)展特征。側(cè)重“行業(yè)大模型+場(chǎng)景適配”，在自動(dòng)駕駛、具身智能等垂直領(lǐng)域應(yīng)用成熟度較高。企業(yè)布局聚焦自動(dòng)駕駛、具身智能等核心場(chǎng)景，車(chē)企與科技巨頭協(xié)同推進(jìn)技術(shù)落地。蔚來(lái)率先發(fā)布國(guó)內(nèi)首個(gè)智能駕駛世界模型NIO World Model，商湯絕影推出“開(kāi)悟”世界模型及“悟能”具身智能平臺(tái)，華為、騰訊、昆侖萬(wàn)維等企業(yè)也相繼發(fā)布盤(pán)古世界模型、混元3D世界模型、Matrix-Zero系列模型等成果，其中騰訊混元3D世界模型實(shí)現(xiàn)開(kāi)源，昆侖萬(wàn)維Matrix-Game 2.0成為業(yè)內(nèi)首個(gè)通用場(chǎng)景實(shí)時(shí)交互開(kāi)源方案。應(yīng)用層面，高德地圖基于自研世界模型推出飛行街景、AR實(shí)景等功能，帶動(dòng)高精度數(shù)據(jù)采集、智能交通等上下游產(chǎn)業(yè)發(fā)展，展現(xiàn)出世界模型賦能實(shí)體經(jīng)濟(jì)的巨大潛力。整體來(lái)看，我國(guó)在應(yīng)用落地與工程化能力上優(yōu)勢(shì)明顯，但在底層技術(shù)與生態(tài)構(gòu)建上仍存在差距。

技術(shù)發(fā)展現(xiàn)狀：掩碼范式成核心，多模態(tài)融合加速

世界模型技術(shù)正處于快速迭代期，核心技術(shù)路徑逐步清晰，多模態(tài)融合與交互能力持續(xù)提升。最新研究明確，真正的世界模型并非單一模型，而是由生成系統(tǒng)、交互系統(tǒng)、記憶系統(tǒng)構(gòu)成的有機(jī)整體，其中生成系統(tǒng)承載物理法則模擬，交互系統(tǒng)實(shí)現(xiàn)環(huán)境與智能體的閉環(huán)互動(dòng)，記憶系統(tǒng)保障時(shí)間維度的場(chǎng)景連貫性。

掩碼（Masking）范式已成為跨模態(tài)建模的核心技術(shù)路徑，推動(dòng)世界模型從“技巧應(yīng)用”向“生成原則”升級(jí)。從NLP領(lǐng)域的離散擴(kuò)散模型，到視覺(jué)領(lǐng)域的MAE、MaskGIT等并行生成技術(shù)，再到VideoMAE的時(shí)空掩碼、wav2vec 2.0的音頻掩碼，掩碼范式實(shí)現(xiàn)了對(duì)文本、圖像、視頻、3D點(diǎn)云等多模態(tài)數(shù)據(jù)的統(tǒng)一表征學(xué)習(xí)。這種技術(shù)路徑不僅提升了生成質(zhì)量與推理效率，更推動(dòng)世界模型從“拼湊式多模態(tài)”向“統(tǒng)一架構(gòu)多模態(tài)”演進(jìn)，形成語(yǔ)言先驗(yàn)與視覺(jué)先驗(yàn)兩大技術(shù)陣營(yíng)，其中基于掩碼的離散擴(kuò)散路線憑借雙向注意力優(yōu)勢(shì)，在視覺(jué)生成質(zhì)量上展現(xiàn)出超越自回歸路線的潛力。

實(shí)時(shí)交互與物理仿真能力成為技術(shù)競(jìng)爭(zhēng)焦點(diǎn)。國(guó)際領(lǐng)先模型已實(shí)現(xiàn)文本驅(qū)動(dòng)的實(shí)時(shí)動(dòng)態(tài)世界生成，谷歌Genie 3支持“可提示的世界事件”，能通過(guò)文本指令改變環(huán)境參數(shù)；英偉達(dá)Cosmos模型在流體力學(xué)、剛體動(dòng)力學(xué)等復(fù)雜物理場(chǎng)景模擬上精度優(yōu)異，預(yù)測(cè)誤差低于5%。我國(guó)模型在實(shí)時(shí)幀率、分辨率等指標(biāo)上逐步追平國(guó)際水平，如騰訊WorldPlay實(shí)現(xiàn)生成24幀/秒720p交互式視頻，但在物理一致性、因果推理能力上仍有差距，動(dòng)態(tài)場(chǎng)景預(yù)測(cè)誤差普遍超過(guò)15%，單目視頻4D重建的泛化能力不足。

產(chǎn)業(yè)應(yīng)用前景：千億市場(chǎng)開(kāi)啟，多領(lǐng)域賦能升級(jí)

世界模型的核心價(jià)值在于通過(guò)虛擬仿真降低真實(shí)場(chǎng)景訓(xùn)練成本、拓展應(yīng)用邊界，已在多個(gè)領(lǐng)域展現(xiàn)出商業(yè)化潛力，被預(yù)判為下一個(gè)千億美元級(jí)賽道。其應(yīng)用場(chǎng)景可分為三大核心領(lǐng)域：一是智能駕駛與智能交通，通過(guò)數(shù)字孿生城市模擬極端路況，降低自動(dòng)駕駛測(cè)試成本，提升交通調(diào)度效率，如高德與千方科技合作的城市大腦解決方案，已接入全國(guó)200余個(gè)城市并實(shí)現(xiàn)顯著盈利增長(zhǎng)，預(yù)計(jì)兩年內(nèi)實(shí)現(xiàn)L3級(jí)商業(yè)化落地，世界模型用于極端場(chǎng)景生成和仿真測(cè)試；二是具身智能與工業(yè)制造，機(jī)器人可在虛擬環(huán)境中完成海量訓(xùn)練，規(guī)避真機(jī)損耗，優(yōu)必選Walker系列人形機(jī)器人已在工業(yè)場(chǎng)景應(yīng)用實(shí)現(xiàn)由“原型階段”進(jìn)入“有限商業(yè)化”，預(yù)期服務(wù)機(jī)器人（家庭、醫(yī)療）發(fā)展步伐將不斷加快；三是生活服務(wù)與娛樂(lè)，飛行街景、AR導(dǎo)航、開(kāi)放世界游戲生成等功能，推動(dòng)消費(fèi)體驗(yàn)升級(jí)與數(shù)字經(jīng)濟(jì)發(fā)展，高德掃街榜日活躍用戶超4000萬(wàn)戶，為本地生活商家?guī)?lái)顯著流量增量。此外，世界模型在醫(yī)療導(dǎo)航、應(yīng)急響應(yīng)等公共服務(wù)領(lǐng)域的應(yīng)用也在逐步拓展，如高德“急救導(dǎo)航”功能已將杭州急救響應(yīng)時(shí)間縮短18%。

核心發(fā)展瓶頸：技術(shù)、生態(tài)與成本三重制約

盡管世界模型發(fā)展勢(shì)頭迅猛，但仍面臨多重瓶頸。技術(shù)層面，因果推理能力缺失，核心短板集中在因果推理與物理建模、大規(guī)模仿真能力兩大領(lǐng)域。國(guó)內(nèi)模型多以感知壓縮為主，對(duì)物理規(guī)律的深層理解不足，復(fù)雜場(chǎng)景下的泛化能力與魯棒性較弱；單場(chǎng)景實(shí)體并行仿真規(guī)模僅為百萬(wàn)級(jí)，端到端延遲超過(guò)300ms，與國(guó)際領(lǐng)先的億級(jí)實(shí)體、100ms以內(nèi)延遲存在較大差距。生態(tài)層面，開(kāi)源生態(tài)成熟度不足，國(guó)產(chǎn)工具鏈功能完整性約為國(guó)外的60%，核心算法依賴授權(quán)，開(kāi)發(fā)者社區(qū)規(guī)模僅為美國(guó)的1/5；同時(shí)，3D數(shù)據(jù)格式不統(tǒng)一、跨平臺(tái)兼容性差等問(wèn)題，制約了產(chǎn)業(yè)協(xié)同發(fā)展。成本層面，算力與數(shù)據(jù)成本過(guò)高，高端算力依賴進(jìn)口，英偉達(dá)A100/H100 GPU壟斷訓(xùn)練市場(chǎng)，國(guó)產(chǎn)主流算力芯片性能僅為A100的70%，導(dǎo)致模型訓(xùn)練與推理成本較國(guó)際水平高出30%～50%；高精度數(shù)據(jù)采集成本高、合成數(shù)據(jù)質(zhì)量不足（Sim-to-Real誤差超過(guò)8%）等問(wèn)題，進(jìn)一步推高了產(chǎn)業(yè)落地成本。此外，泛化能力不足，模型在訓(xùn)練數(shù)據(jù)分布外場(chǎng)景表現(xiàn)差，如自動(dòng)駕駛模型在極端天氣、罕見(jiàn)事故場(chǎng)景中失效率高；可解釋性差，模型決策過(guò)程如同“黑箱”，難以追溯推理路徑，在醫(yī)療、司法等高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用受限。

世界模型發(fā)展對(duì)策建議

技術(shù)攻堅(jiān)：聚焦核心短板，構(gòu)建分層突破體系

針對(duì)技術(shù)瓶頸，構(gòu)建“基礎(chǔ)研究+關(guān)鍵技術(shù)+應(yīng)用驗(yàn)證”的分層突破體系，集中力量攻克核心短板。一是強(qiáng)化基礎(chǔ)理論研究，著力支持因果機(jī)器學(xué)習(xí)、物理約束建模、掩碼范式優(yōu)化等前沿方向，鼓勵(lì)高校與科研院所開(kāi)展“從0到1”的原創(chuàng)性研究，破解物理世界表征與因果推理的底層難題。建議設(shè)立世界模型專項(xiàng)科研基金，推動(dòng)產(chǎn)學(xué)研協(xié)同攻關(guān)，力爭(zhēng)將動(dòng)態(tài)場(chǎng)景物理預(yù)測(cè)誤差降至10%以內(nèi)。二是突破關(guān)鍵技術(shù)瓶頸，重點(diǎn)研發(fā)單目視頻4D重建、大規(guī)模并行仿真、跨模態(tài)語(yǔ)義對(duì)齊等核心技術(shù)；加速國(guó)產(chǎn)算力芯片迭代，推動(dòng)華為昇騰、寒武紀(jì)等芯片的性能優(yōu)化與生態(tài)適配，構(gòu)建自主可控的分布式訓(xùn)練集群，不斷降低高端算力成本。三是評(píng)估體系構(gòu)建，依托自動(dòng)駕駛、工業(yè)制造等典型場(chǎng)景，搭建標(biāo)準(zhǔn)化的技術(shù)測(cè)試與驗(yàn)證體系，通過(guò)真實(shí)場(chǎng)景反饋推動(dòng)技術(shù)迭代，提升模型的魯棒性與泛化能力。

產(chǎn)業(yè)賦能：錨定優(yōu)勢(shì)場(chǎng)景，推動(dòng)規(guī)模化落地

立足國(guó)內(nèi)龐大的市場(chǎng)需求與產(chǎn)業(yè)基礎(chǔ)，以應(yīng)用落地帶動(dòng)技術(shù)升級(jí)，實(shí)現(xiàn)“場(chǎng)景-技術(shù)-產(chǎn)業(yè)”的良性循環(huán)。一是聚焦優(yōu)勢(shì)場(chǎng)景落地，優(yōu)先發(fā)展智能駕駛、智能交通、工業(yè)數(shù)字孿生等中國(guó)具有產(chǎn)業(yè)優(yōu)勢(shì)的領(lǐng)域，推動(dòng)世界模型與實(shí)體經(jīng)濟(jì)深度融合。鼓勵(lì)高德、蔚來(lái)等企業(yè)進(jìn)一步拓展應(yīng)用場(chǎng)景，完善“數(shù)據(jù)采集-模型訓(xùn)練-場(chǎng)景應(yīng)用”的產(chǎn)業(yè)閉環(huán)；支持推進(jìn)數(shù)字孿生城市試點(diǎn)，推動(dòng)世界模型在交通調(diào)度、應(yīng)急管理等公共服務(wù)領(lǐng)域的規(guī)模化應(yīng)用。二是培育細(xì)分賽道龍頭，引導(dǎo)中小企業(yè)避開(kāi)通用場(chǎng)景競(jìng)爭(zhēng)，聚焦垂直領(lǐng)域做精做專，如醫(yī)療導(dǎo)航、游戲場(chǎng)景生成、特種機(jī)器人訓(xùn)練等細(xì)分方向，形成“頭部企業(yè)引領(lǐng)、中小企業(yè)補(bǔ)位”的產(chǎn)業(yè)格局。三是降低產(chǎn)業(yè)落地成本，推動(dòng)高精度數(shù)據(jù)共享平臺(tái)建設(shè)，在保障數(shù)據(jù)安全的前提下，整合車(chē)企、地圖廠商、工業(yè)企業(yè)的數(shù)據(jù)資源，降低中小企業(yè)的數(shù)據(jù)獲取成本；同時(shí)，推廣合成數(shù)據(jù)技術(shù)應(yīng)用，提升國(guó)產(chǎn)合成數(shù)據(jù)質(zhì)量，不斷提高合成數(shù)據(jù)在具身訓(xùn)練中的占比。

生態(tài)構(gòu)建：強(qiáng)化開(kāi)源協(xié)同，完善產(chǎn)業(yè)支撐體系

以開(kāi)源生態(tài)為核心，構(gòu)建全鏈條產(chǎn)業(yè)支撐體系，提升產(chǎn)業(yè)協(xié)同創(chuàng)新能力。一是推動(dòng)核心技術(shù)開(kāi)源共享，鼓勵(lì)企業(yè)開(kāi)放世界模型工具鏈與基礎(chǔ)模型，如騰訊混元3D世界模型、昆侖萬(wàn)維Matrix-Game等已開(kāi)源成果，擴(kuò)大開(kāi)發(fā)者社區(qū)規(guī)模；依托國(guó)內(nèi)開(kāi)源平臺(tái)，建立世界模型開(kāi)源標(biāo)準(zhǔn)與評(píng)估體系，提升開(kāi)源項(xiàng)目的全球影響力。二是完善工具鏈與標(biāo)準(zhǔn)體系，聯(lián)合產(chǎn)學(xué)研力量研發(fā)完善世界模型開(kāi)發(fā)工具鏈，補(bǔ)齊數(shù)據(jù)標(biāo)注、模型訓(xùn)練、仿真測(cè)試等環(huán)節(jié)的工具短板；推進(jìn)3D數(shù)據(jù)格式、接口協(xié)議、安全規(guī)范等行業(yè)標(biāo)準(zhǔn)制定，解決跨平臺(tái)兼容性問(wèn)題，提升產(chǎn)業(yè)協(xié)同效率。三是構(gòu)建人才培養(yǎng)體系，高校增設(shè)世界模型相關(guān)專業(yè)方向，培養(yǎng)兼具物理建模、人工智能、行業(yè)場(chǎng)景知識(shí)的復(fù)合型人才；企業(yè)與高校共建實(shí)習(xí)實(shí)訓(xùn)基地，通過(guò)項(xiàng)目實(shí)踐提升人才的工程化能力，緩解產(chǎn)業(yè)人才短缺問(wèn)題。

政策保障：優(yōu)化發(fā)展環(huán)境，強(qiáng)化戰(zhàn)略引導(dǎo)

發(fā)揮政策引導(dǎo)作用，營(yíng)造良好發(fā)展環(huán)境，為世界模型產(chǎn)業(yè)發(fā)展提供有力支撐。一是加強(qiáng)頂層設(shè)計(jì)，將世界模型納入國(guó)家人工智能相關(guān)發(fā)展規(guī)劃，明確中長(zhǎng)期發(fā)展目標(biāo)與重點(diǎn)任務(wù)；各地結(jié)合產(chǎn)業(yè)基礎(chǔ)出臺(tái)配套政策，形成“國(guó)家引導(dǎo)、地方聯(lián)動(dòng)”的發(fā)展格局。二是加大政策扶持力度，對(duì)世界模型核心技術(shù)研發(fā)企業(yè)給予稅收優(yōu)惠、研發(fā)費(fèi)用加計(jì)扣除等支持；設(shè)立專項(xiàng)研發(fā)基金，支持基礎(chǔ)研究和關(guān)鍵技術(shù)攻關(guān)；推動(dòng)政府采購(gòu)世界模型相關(guān)產(chǎn)品與服務(wù)，為技術(shù)落地提供應(yīng)用場(chǎng)景；完善數(shù)據(jù)治理法規(guī)，在保護(hù)隱私與促進(jìn)數(shù)據(jù)流通間取得平衡。三是深化國(guó)際合作與安全監(jiān)管，積極參與全球世界模型技術(shù)標(biāo)準(zhǔn)制定，加強(qiáng)與國(guó)際領(lǐng)先企業(yè)、科研機(jī)構(gòu)的技術(shù)交流與合作；建立世界模型安全評(píng)估體系，防范技術(shù)濫用帶來(lái)的倫理風(fēng)險(xiǎn)與安全隱患，保障產(chǎn)業(yè)健康發(fā)展。

結(jié)語(yǔ)

世界模型作為人工智能邁向通用智能的關(guān)鍵支撐，正開(kāi)啟千億級(jí)產(chǎn)業(yè)賽道，其發(fā)展水平直接決定未來(lái)在智能駕駛、具身智能等核心領(lǐng)域的產(chǎn)業(yè)話語(yǔ)權(quán)。當(dāng)前，中國(guó)世界模型發(fā)展呈現(xiàn)“應(yīng)用并跑、技術(shù)跟跑、生態(tài)滯后”的特征，既面臨底層技術(shù)與生態(tài)構(gòu)建的挑戰(zhàn)，也擁有市場(chǎng)規(guī)模、產(chǎn)業(yè)基礎(chǔ)的獨(dú)特優(yōu)勢(shì)。未來(lái)，需通過(guò)技術(shù)攻堅(jiān)突破核心瓶頸，以產(chǎn)業(yè)賦能實(shí)現(xiàn)規(guī)模化落地，靠生態(tài)構(gòu)建提升協(xié)同效率，用政策保障優(yōu)化發(fā)展環(huán)境，推動(dòng)世界模型產(chǎn)業(yè)高質(zhì)量發(fā)展，為搶占全球人工智能產(chǎn)業(yè)制高點(diǎn)奠定堅(jiān)實(shí)基礎(chǔ)。

本文作者：

王厚芹中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院科技處副處長(zhǎng)

張玲寧中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院軟件與集成電路評(píng)測(cè)中心黨委副書(shū)記

閱讀更多內(nèi)容，歡迎訂購(gòu)《機(jī)器人產(chǎn)業(yè)》雜志。

點(diǎn)擊跳轉(zhuǎn)！圈內(nèi)人都在看的專家觀點(diǎn)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.