范式躍遷：智源定義世界模型時代，人工智能正式邁向物理世界 | 前沿在線

2026-06-14 05:26:52　來源: 前沿在線

北京舉報

分享至

編輯：前沿在線編輯部

就在最近，北京中關(guān)村國際創(chuàng)新中心，第八屆智源大會開幕式的主會場里，

一萬多名參會者擠滿了每一個角落，連過道都站滿了人。

這是八年來智源大會參會人數(shù)最多的一屆，也是整個 AI 行業(yè)最真實的溫度計：當大模型進入產(chǎn)業(yè)落地的深水區(qū)，當參數(shù)競賽的紅利逐漸消退，所有人都在尋找下一個技術(shù)方向的答案。

被業(yè)內(nèi)稱為"AI 春晚"的智源大會，今年端上來最硬的一盤菜，就是世界模型。

智源研究院院長王仲遠站在臺上，用一句話為整個行業(yè)指明了方向：我們正在經(jīng)歷從 "預測下一個詞元" 到 "預測下一個物理狀態(tài)" 的重大范式變革，世界模型將成為與大語言模型并駕齊驅(qū)的下一代人工智能基座模型。

這不僅僅是一家研究機構(gòu)的技術(shù)發(fā)布，更是為過去半年混亂的 "世界模型熱" 完成了一次正本清源，為整個行業(yè)立起了一條通往物理世界通用人工智能的清晰路標。

給 AI 裝上一套「物理引擎」

在此之前，大語言模型對現(xiàn)實世界的理解，本質(zhì)上來自海量語言數(shù)據(jù)中的經(jīng)驗歸納，而不是對物理過程的真實模擬。

大語言模型可能知道 "推一下桌邊的杯子，大概率會掉下來"，但并不意味著它明白重力、受力、慣性和空間關(guān)系是怎么回事。它能背出 "鐵碗不能放進微波爐" 的常識，但真讓機器人去操作，沒有哪個大腦真正理解這個物理規(guī)則。

智源要做的，就是給 AI 裝一套真正的「物理引擎」—— 給它一個動作，它來預測這個動作在真實世界里會產(chǎn)生什么后果。

這背后是智源研究院成立八年來一以貫之的定位：做高校做不了，企業(yè)不愿做的事。

高校有頂尖人才，但缺工程團隊和計算資源；企業(yè)有資源，但必須考量商業(yè)回報。智源處在這兩者中間，既敢押注 "通用世界模型" 這種短期內(nèi)看不到商業(yè)回報的方向，也能用工程化團隊把論文級的想法做到可開源、可部署。

過去八年，智源一次又一次證明了這條路的價值。

2020 年，當全行業(yè)還在觀望大模型技術(shù)路線時，智源率先成立悟道研發(fā)團隊；2021 年發(fā)布中國首個萬億參數(shù)大模型悟道 1.0，開啟了中國大模型時代；2023年，當所有人都在扎堆做大語言模型時，智源把楊立昆請到智源大會講世界模型，率先布局下一代技術(shù)；2024 年，智源明確提出 "大語言模型→多模態(tài)大模型→世界模型" 的技術(shù)演進路線。

今天，當全行業(yè)開始討論世界模型時，智源已經(jīng)拿出了完整的技術(shù)路線圖和一系列重磅成果。

截至目前，智源開源模型超 200 個，全球總下載量累計超過 10 億次。

八歲的智源大會：內(nèi)行的盛會，行業(yè)的風向標

自 2019 年啟幕以來，智源大會已連續(xù)成功舉辦八屆，累計匯聚了 14 位圖靈獎得主、過千位產(chǎn)學研頂尖專家，吸引全球 30 多個國家和地區(qū)、超 1000 萬人次專業(yè)人士參與。

如果把過去幾年 AI 的發(fā)展拉成一條時間線，會發(fā)現(xiàn)智源大會幾乎踩中了每一個關(guān)鍵節(jié)點：首屆大會討論深度學習與基礎模型，大模型浪潮爆發(fā)后聚焦預訓練與多模態(tài)，再到今天，舞臺中央已經(jīng)變成了世界模型和智能體。

八年來，智源大會形成了自己獨特的氣質(zhì)：技術(shù)硬核、國際視野、青年人才。業(yè)內(nèi)人都知道，這是 "AI 內(nèi)行的學術(shù)盛會"—— 沒有太多花哨的營銷，干貨密度是所有行業(yè)大會里最高的。

本屆大會最震撼的聲音來自圖靈獎得主 Whitfield Diffie。這位現(xiàn)代數(shù)字安全體系的奠基者，在演講尾聲給出了一個驚人預測：到 2050 年，機器智能將超越人類，成為世界運行的主宰。

Diffie 圍繞 AI 安全提出了深刻的警示：當前依賴反饋控制的方法效果不佳，他主張形式化方法才是未來。他樂觀地認為，未來 AI 將成為完成數(shù)學證明的工具，大幅提升系統(tǒng)可靠性。

另一位圖靈獎得主、強化學習奠基人 Andrew Barto則將強化學習歸結(jié)為"控制、搜索與聯(lián)想記憶" 的三位一體。他強調(diào)深度強化學習與大腦獎勵系統(tǒng)的最新成果相結(jié)合，將指引下一輪技術(shù)方向，最后也發(fā)出警示：小心你許的愿 —— 你可能真的會得到它，警惕獎勵信號設計帶來的 "反常實例化" 風險。

本屆大會的嘉賓陣容創(chuàng)造了新紀錄：8 位中外院士、30 余位 30 歲以下青年科學家、40 余位 AI 企業(yè) CEO 和創(chuàng)始人、200 余位頂尖專家學者齊聚北京。Meta、英偉達、哈佛、MIT 等全球頂尖機構(gòu)，與阿里、騰訊、小米、清華、北大、人大，以及智譜、面壁、生數(shù)等中國 AI 創(chuàng)新力量，在同一個平臺上交流。

1 場主論壇，24 場平行論壇，200 余場演講。

智能體論壇從去年的 1 場拓展至 3 場，還首次設立了全天候 "AI× 神經(jīng)科學論壇"，匯聚 15 余位百億估值具身智能 CEO 共商發(fā)展路徑，并首創(chuàng) "智能體聽會" 功能，讓觀眾借助數(shù)字分身并行參會。

報名最火爆的六場論壇分別是：開幕式暨全體大會、大模型產(chǎn)業(yè)論壇、AI 自進化、具身智能與人形機器人、終端智能體與 OpenClaw 以及世界模型。

今年還首次新增了 AI Native 教育論壇和 Token 經(jīng)濟與 OPC 論壇，分別探討智能時代的教育變革與生產(chǎn)關(guān)系重構(gòu)，覆蓋前沿議題的廣度進一步拓展。

正本清源：四類路線，一個本質(zhì)

過去半年，"世界模型" 是 AI 行業(yè)最火也最混亂的概念。

從 Sora 引爆視頻生成開始，

幾乎所有公司都在推出自己的 "世界模型"。但到底什么是世界模型？沒有人說得清楚。

王仲遠在演講中第一次系統(tǒng)性地梳理了現(xiàn)有技術(shù)路線的四大分類，為行業(yè)正本清源：

第一類是以語言為中心的世界模型，包括大語言模型、VLM、VLA。它們在文本空間預測下一個詞，學到的是語言描述的世界，但并不理解背后的物理后果。

第二類是以像素為中心的世界模型，也就是 Sora、Seedance 這類視頻生成模型。這也是當前被誤用最廣的方向。

"視頻生成模型不等于世界模型。"王仲遠說得非常直接，"Sora 可以生成一群豬在天上和飛機一起飛，恰恰說明它不遵循真實物理規(guī)律。"

第三類是以三維結(jié)構(gòu)為中心的世界模型，包括各類 3D 重建模型以及李飛飛團隊的 World Labs Marble 模型。但三維空間重建不等于理解世界，幾何結(jié)構(gòu)也不代表物理狀態(tài)。

第四類是以視覺表征為中心的世界模型，以楊立昆的 JEPA 系列為代表。它們預測視覺表征的演化，但視覺嵌入的變化并不等于物理規(guī)律的演化。

智源認為，以上四類技術(shù)路線距離真正的世界模型都還存在一定差距。

那么，真正的世界模型到底是什么？

智源給出的定義非常明確：世界模型的核心本質(zhì)，是預測下一個物理狀態(tài)。

這是一個簡單但極其深刻的判斷。它把世界模型從一個營銷概念，拉回到了一個可衡量、可驗證的技術(shù)標準上。

悟界系列：雙引擎架構(gòu)，五年三步躍遷

基于這個判斷，智源發(fā)布了兩大世界模型，形成"物理基座 + 通用交互"的雙引擎架構(gòu) ，共同構(gòu)成完整的世界模型技術(shù)體系，為物理 AGI 提供從底層物理可信性到頂層類人認知交互的全棧支撐。

第一個是悟界?Physis-v0.1—— 全球首個通用世界基座模型。

與行業(yè)主流的像素級預測不同，Physis 走了一條智源獨創(chuàng)的路線：物理隱空間表征。它徹底摒棄了傳統(tǒng)的幀級預測方案，用專屬的物理狀態(tài)編碼器，把視頻、深度 RGB、3D 點云、力觸反饋等所有模態(tài)的信息，統(tǒng)一壓縮成標準化的隱空間物理狀態(tài)。

這個設計帶來了四個核心能力：物理一致性、動作因果性、長程可推演性、通用泛化性。目前 Physis 已經(jīng)支持 50 余種復雜物理場景的長程推理。

第二個是悟界?RoboBrain Orca v0，這是業(yè)界第一個以下一個物理狀態(tài)預測為核心的具身大腦。它真正實現(xiàn)了"想、看、動" 三位一體。

比如命令 "把桌上的可樂遞給客人"，它能同時完成：語言推理確認哪瓶是可樂，視覺預測繞開中間的花瓶，動作決策規(guī)劃抓取路徑。

值得注意的是，這次發(fā)布的只是 v0.1 版本。"該模型目前還在訓練中，將在未來幾個月開源。"王仲遠明確了開源時間表。

從悟道到悟界，智源用五年時間走了三步。

2021 年，悟道大模型，確立了 Next Token Prediction 的范式，開啟中國大模型時代。

2024 到 2025 年，悟界?Emu3/3.5，實現(xiàn)多模態(tài)統(tǒng)一學習。今年 1 月，Emu3 登上《Nature》正刊 ——這是中國科研機構(gòu)主導的大模型，第一次登上《Nature》正刊。半年之內(nèi)連登《Nature》和《Science》兩大頂刊，是這條路線正確性最好的證明：

除了 Emu3 的《Nature》論文，智源聯(lián)合清華大學基于悟界?Brainμ 開展的 "記憶 - 睡眠調(diào)控機制" 研究，也于近期登上《Science》正刊。

2026 年，悟界?Physis，正式邁向 Next Physical State Prediction 的世界模型時代。

全棧布局：從實驗室到真實場景的落地

世界模型不是空中樓閣，智源構(gòu)建的是一整套完整的技術(shù)體系。

在神經(jīng)科學領(lǐng)域，悟界?Brainμ1.0 可以把人類、獼猴、小鼠三個物種的 11 種腦信號，統(tǒng)一編碼成標準 Token，實現(xiàn)腦信號與語言、圖像、視頻的互相轉(zhuǎn)換。

通俗來說，它已經(jīng)可以做到 "周公解夢"—— 通過腦信號還原夢境內(nèi)容。配套發(fā)布的 BrainToken 平臺，匯聚的神經(jīng)科學數(shù)據(jù)已經(jīng)突破萬億 Token。

在 AI 制藥領(lǐng)域，悟界?OpenComplex 2.5 用單一模型統(tǒng)一覆蓋了制藥四大關(guān)鍵步驟，為神經(jīng)退行性疾病等難成藥靶點提供了新技術(shù)路徑。

如果說世界模型給 AI 賦予了「常識」，那么智能體則讓 AI 長出了「手腳」。

在智能體層面，智源一口氣發(fā)布了四款產(chǎn)品：與安貞醫(yī)院聯(lián)合研發(fā)的心臟輔助診斷智能體，診斷 AUC 超過 0.93；

面向科學發(fā)現(xiàn)的自主研究智能體 AREX，比肩萬億參數(shù)級旗艦模型；面向個人用戶的 SoulAgent，Token 成本節(jié)省 30%，資源占用降低 80%；以及面向生物安全的風險發(fā)現(xiàn)智能體，首次打通干濕實驗閉環(huán)。

在基礎生態(tài)層面，F(xiàn)lagOS 2.1 適配 18 家芯片廠商的 32 款芯片，是全球適配芯片品類最多的計算系統(tǒng)。發(fā)布即多芯適配，DAY 0 即可完成主流模型的多款芯片適配。FlagCX 通信庫更是實現(xiàn)了全球 AI 芯片通信的 ITU 國際標準與國家標準 "雙立項"。

目前FlagOS 的生態(tài)成員已超過 80 家，全球下載量超過 37.5 萬次，觸及開發(fā)者 5.6 萬人，內(nèi)置算子總數(shù)超過 600 個，這套開源生態(tài)的盤子正在持續(xù)滾大。

大會現(xiàn)場的體驗區(qū)更是直觀展示了這些技術(shù)的落地成果：全球首個跨本體人形機器人全自主乒乓球?qū)Υ蛳到y(tǒng)、

能完成套垃圾袋和雙手協(xié)同清理等復雜任務的酒店清潔機器人、安貞 - 智源心臟 AI 醫(yī)院體驗區(qū)、神經(jīng)科學與 AI 藥物發(fā)現(xiàn)展區(qū)，讓參會者親手操作、沉浸式感受 AI 與物理世界的交互。

面向未來：青年領(lǐng)軍與冷靜判斷

本屆大會最具深度的討論，出現(xiàn)在王仲遠主持的巔峰對話圓桌。

小米羅福莉認為 Claude Fable 5 本質(zhì)仍是預訓練、數(shù)據(jù)與強化學習的自然結(jié)果；

清華朱軍指出 Token 消耗下降是行業(yè)正確方向；

劉知遠分析 Anthropic 的成功源于找準代碼這一專業(yè)領(lǐng)域，強調(diào)智能革命的本質(zhì)在于用 AI 替代機械重復的腦力勞動；

安波則提出 AI 自進化不能依賴封閉環(huán)境。

而在黃鐵軍與王堅的播客對話中，兩位行業(yè)老兵探討了更宏大的命題：中國大模型如何從追趕驗證走向路線選擇、體系構(gòu)建與范式創(chuàng)新，如何從 "跟隨國際主流范式" 轉(zhuǎn)向 "形成自身問題意識"、實現(xiàn)原創(chuàng)范式躍遷。

在閉幕演講中，黃鐵軍更系統(tǒng)地提出了 AGI 五級演進時間表與風險框架：

Level 0（認知低于人類）：已成為過去，風險在于誤用、濫用與惡用
Level 1（認知超人）：正在當下發(fā)生，人類面臨 "躺平" 或 "理性信任" 的選擇
Level 2（具身超人）：預計 2035 年實現(xiàn)，屆時人類將超出對其物理控制的能力
Level 3（感知認知結(jié)合產(chǎn)生意識）：代表著 "機器崛起"
Level 4（產(chǎn)生自我意識）：預計 2045 年，可能導致人類成為次等物種
Level 5（脫離人類知識和大腦架構(gòu)）：意味著 AGI 獨自探索宇宙

在智源，有一個傳統(tǒng)叫"青年挑大梁"。當年悟道系列的核心團隊，平均年齡只有 30 歲。今天領(lǐng)銜悟界?Physis 研發(fā)的，是 22 歲的陳博遠。

對于世界模型的時間表，王仲遠保持著科研工作者特有的冷靜："至少還需要好幾年。科研就是這樣，可能卡在一個地方三五年沒有突破，也可能突然就突破了。未來三到五年，都會是世界模型持續(xù)演進的階段。"

但方向已經(jīng)無比清晰。當 AI 學會了 "思考" 物理規(guī)律，并長出能自主行動的 "手腳"，它終于不再只是 "紙上談兵"，而是開始真正理解世界，并展開行動。

從預測下一個詞元，到預測下一個物理狀態(tài)；從理解數(shù)字世界，到理解物理世界；從悟道，到悟界。

八年來，智源用自己的節(jié)奏，一步一個腳印地走在最前面。

正如黃鐵軍在閉幕演講中引用圖靈的那句名言："吾等目力短亦淺，能見百事待踐行"。

智源正以 "結(jié)構(gòu)決定功能" 與 "功能塑造結(jié)構(gòu)" 的辯證統(tǒng)一，以 "吾道一以貫之" 的戰(zhàn)略定力，推動人工智能、物理世界和生命科學 "三體互動"，構(gòu)建 AGI 的大腦、眼睛和身體閉環(huán)，讓智能真正嵌入物理世界。

而每年六月的智源大會，就是我們觀察這個時代進程最好的窗口 ——在這里，你總能看到人工智能的未來。

前沿動態(tài)前沿大會
前沿人物

點「在看」，給前前加雞腿

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.