![]()
![]()
編輯:前沿在線 編輯部
就在最近,北京中關(guān)村國際創(chuàng)新中心,第八屆智源大會開幕式的主會場里,
![]()
一萬多名參會者擠滿了每一個角落,連過道都站滿了人。
![]()
這是八年來智源大會參會人數(shù)最多的一屆,也是整個 AI 行業(yè)最真實的溫度計:當大模型進入產(chǎn)業(yè)落地的深水區(qū),當參數(shù)競賽的紅利逐漸消退,所有人都在尋找下一個技術(shù)方向的答案。
被業(yè)內(nèi)稱為"AI 春晚"的智源大會,今年端上來最硬的一盤菜,就是世界模型。
![]()
智源研究院院長王仲遠站在臺上,用一句話為整個行業(yè)指明了方向:我們正在經(jīng)歷從 "預測下一個詞元" 到 "預測下一個物理狀態(tài)" 的重大范式變革,世界模型將成為與大語言模型并駕齊驅(qū)的下一代人工智能基座模型。
![]()
這不僅僅是一家研究機構(gòu)的技術(shù)發(fā)布,更是為過去半年混亂的 "世界模型熱" 完成了一次正本清源,為整個行業(yè)立起了一條通往物理世界通用人工智能的清晰路標。
![]()
給 AI 裝上一套「物理引擎」
在此之前,大語言模型對現(xiàn)實世界的理解,本質(zhì)上來自海量語言數(shù)據(jù)中的經(jīng)驗歸納,而不是對物理過程的真實模擬。
大語言模型可能知道 "推一下桌邊的杯子,大概率會掉下來",但并不意味著它明白重力、受力、慣性和空間關(guān)系是怎么回事。它能背出 "鐵碗不能放進微波爐" 的常識,但真讓機器人去操作,沒有哪個大腦真正理解這個物理規(guī)則。
![]()
智源要做的,就是給 AI 裝一套真正的「物理引擎」—— 給它一個動作,它來預測這個動作在真實世界里會產(chǎn)生什么后果。
這背后是智源研究院成立八年來一以貫之的定位:做高校做不了,企業(yè)不愿做的事。
高校有頂尖人才,但缺工程團隊和計算資源;企業(yè)有資源,但必須考量商業(yè)回報。智源處在這兩者中間,既敢押注 "通用世界模型" 這種短期內(nèi)看不到商業(yè)回報的方向,也能用工程化團隊把論文級的想法做到可開源、可部署。
![]()
過去八年,智源一次又一次證明了這條路的價值。
2020 年,當全行業(yè)還在觀望大模型技術(shù)路線時,智源率先成立悟道研發(fā)團隊;2021 年發(fā)布中國首個萬億參數(shù)大模型悟道 1.0,開啟了中國大模型時代;2023年,當所有人都在扎堆做大語言模型時,智源把楊立昆請到智源大會講世界模型,率先布局下一代技術(shù);2024 年,智源明確提出 "大語言模型→多模態(tài)大模型→世界模型" 的技術(shù)演進路線。
![]()
今天,當全行業(yè)開始討論世界模型時,智源已經(jīng)拿出了完整的技術(shù)路線圖和一系列重磅成果。
截至目前,智源開源模型超 200 個,全球總下載量累計超過 10 億次。
![]()
八歲的智源大會:內(nèi)行的盛會,行業(yè)的風向標
自 2019 年啟幕以來,智源大會已連續(xù)成功舉辦八屆,累計匯聚了 14 位圖靈獎得主、過千位產(chǎn)學研頂尖專家,吸引全球 30 多個國家和地區(qū)、超 1000 萬人次專業(yè)人士參與。
![]()
如果把過去幾年 AI 的發(fā)展拉成一條時間線,會發(fā)現(xiàn)智源大會幾乎踩中了每一個關(guān)鍵節(jié)點:首屆大會討論深度學習與基礎模型,大模型浪潮爆發(fā)后聚焦預訓練與多模態(tài),再到今天,舞臺中央已經(jīng)變成了世界模型和智能體。
八年來,智源大會形成了自己獨特的氣質(zhì):技術(shù)硬核、國際視野、青年人才。業(yè)內(nèi)人都知道,這是 "AI 內(nèi)行的學術(shù)盛會"—— 沒有太多花哨的營銷,干貨密度是所有行業(yè)大會里最高的。
![]()
本屆大會最震撼的聲音來自圖靈獎得主 Whitfield Diffie。這位現(xiàn)代數(shù)字安全體系的奠基者,在演講尾聲給出了一個驚人預測:到 2050 年,機器智能將超越人類,成為世界運行的主宰。
![]()
Diffie 圍繞 AI 安全提出了深刻的警示:當前依賴反饋控制的方法效果不佳,他主張形式化方法才是未來。他樂觀地認為,未來 AI 將成為完成數(shù)學證明的工具,大幅提升系統(tǒng)可靠性。
另一位圖靈獎得主、強化學習奠基人 Andrew Barto則將強化學習歸結(jié)為"控制、搜索與聯(lián)想記憶" 的三位一體。他強調(diào)深度強化學習與大腦獎勵系統(tǒng)的最新成果相結(jié)合,將指引下一輪技術(shù)方向,最后也發(fā)出警示:小心你許的愿 —— 你可能真的會得到它,警惕獎勵信號設計帶來的 "反常實例化" 風險。
![]()
本屆大會的嘉賓陣容創(chuàng)造了新紀錄:8 位中外院士、30 余位 30 歲以下青年科學家、40 余位 AI 企業(yè) CEO 和創(chuàng)始人、200 余位頂尖專家學者齊聚北京。Meta、英偉達、哈佛、MIT 等全球頂尖機構(gòu),與阿里、騰訊、小米、清華、北大、人大,以及智譜、面壁、生數(shù)等中國 AI 創(chuàng)新力量,在同一個平臺上交流。
![]()
1 場主論壇,24 場平行論壇,200 余場演講。
智能體論壇從去年的 1 場拓展至 3 場,還首次設立了全天候 "AI× 神經(jīng)科學論壇",匯聚 15 余位百億估值具身智能 CEO 共商發(fā)展路徑,并首創(chuàng) "智能體聽會" 功能,讓觀眾借助數(shù)字分身并行參會。
報名最火爆的六場論壇分別是:開幕式暨全體大會、大模型產(chǎn)業(yè)論壇、AI 自進化、具身智能與人形機器人、終端智能體與 OpenClaw 以及世界模型。
今年還首次新增了 AI Native 教育論壇 和 Token 經(jīng)濟與 OPC 論壇,分別探討智能時代的教育變革與生產(chǎn)關(guān)系重構(gòu),覆蓋前沿議題的廣度進一步拓展。
![]()
正本清源:四類路線,一個本質(zhì)
過去半年,"世界模型" 是 AI 行業(yè)最火也最混亂的概念。
從 Sora 引爆視頻生成開始,
![]()
幾乎所有公司都在推出自己的 "世界模型"。但到底什么是世界模型?沒有人說得清楚。
王仲遠在演講中第一次系統(tǒng)性地梳理了現(xiàn)有技術(shù)路線的四大分類,為行業(yè)正本清源:
![]()
第一類是以語言為中心的世界模型,包括大語言模型、VLM、VLA。它們在文本空間預測下一個詞,學到的是語言描述的世界,但并不理解背后的物理后果。
第二類是以像素為中心的世界模型,也就是 Sora、Seedance 這類視頻生成模型。這也是當前被誤用最廣的方向。
"視頻生成模型不等于世界模型。"王仲遠說得非常直接,"Sora 可以生成一群豬在天上和飛機一起飛,恰恰說明它不遵循真實物理規(guī)律。"
第三類是以三維結(jié)構(gòu)為中心的世界模型,包括各類 3D 重建模型以及李飛飛團隊的 World Labs Marble 模型。但三維空間重建不等于理解世界,幾何結(jié)構(gòu)也不代表物理狀態(tài)。
第四類是以視覺表征為中心的世界模型,以楊立昆的 JEPA 系列為代表。它們預測視覺表征的演化,但視覺嵌入的變化并不等于物理規(guī)律的演化。
智源認為,以上四類技術(shù)路線距離真正的世界模型都還存在一定差距。
那么,真正的世界模型到底是什么?
![]()
智源給出的定義非常明確:世界模型的核心本質(zhì),是預測下一個物理狀態(tài)。
這是一個簡單但極其深刻的判斷。它把世界模型從一個營銷概念,拉回到了一個可衡量、可驗證的技術(shù)標準上。
![]()
悟界系列:雙引擎架構(gòu),五年三步躍遷
基于這個判斷,智源發(fā)布了兩大世界模型,形成"物理基座 + 通用交互"的雙引擎架構(gòu) ,共同構(gòu)成完整的世界模型技術(shù)體系,為物理 AGI 提供從底層物理可信性到頂層類人認知交互的全棧支撐。
第一個是 悟界?Physis-v0.1—— 全球首個通用世界基座模型。
與行業(yè)主流的像素級預測不同,Physis 走了一條智源獨創(chuàng)的路線:物理隱空間表征。它徹底摒棄了傳統(tǒng)的幀級預測方案,用專屬的物理狀態(tài)編碼器,把視頻、深度 RGB、3D 點云、力觸反饋等所有模態(tài)的信息,統(tǒng)一壓縮成標準化的隱空間物理狀態(tài)。
![]()
這個設計帶來了四個核心能力:物理一致性、動作因果性、長程可推演性、通用泛化性。目前 Physis 已經(jīng)支持 50 余種復雜物理場景的長程推理。
第二個是 悟界?RoboBrain Orca v0,這是業(yè)界第一個以下一個物理狀態(tài)預測為核心的具身大腦。它真正實現(xiàn)了"想、看、動" 三位一體。
![]()
比如命令 "把桌上的可樂遞給客人",它能同時完成:語言推理確認哪瓶是可樂,視覺預測繞開中間的花瓶,動作決策規(guī)劃抓取路徑。
值得注意的是,這次發(fā)布的只是 v0.1 版本。"該模型目前還在訓練中,將在未來幾個月開源。"王仲遠明確了開源時間表。
從悟道到悟界,智源用五年時間走了三步。
2021 年,悟道大模型,確立了 Next Token Prediction 的范式,開啟中國大模型時代。
![]()
2024 到 2025 年,悟界?Emu3/3.5,實現(xiàn)多模態(tài)統(tǒng)一學習。今年 1 月,Emu3 登上《Nature》正刊 ——這是中國科研機構(gòu)主導的大模型,第一次登上《Nature》正刊。半年之內(nèi)連登《Nature》和《Science》兩大頂刊,是這條路線正確性最好的證明:
除了 Emu3 的《Nature》論文,智源聯(lián)合清華大學基于悟界?Brainμ 開展的 "記憶 - 睡眠調(diào)控機制" 研究,也于近期登上《Science》正刊。
2026 年,悟界?Physis,正式邁向 Next Physical State Prediction 的世界模型時代。
![]()
全棧布局:從實驗室到真實場景的落地
世界模型不是空中樓閣,智源構(gòu)建的是一整套完整的技術(shù)體系。
在神經(jīng)科學領(lǐng)域,悟界?Brainμ1.0 可以把人類、獼猴、小鼠三個物種的 11 種腦信號,統(tǒng)一編碼成標準 Token,實現(xiàn)腦信號與語言、圖像、視頻的互相轉(zhuǎn)換。
通俗來說,它已經(jīng)可以做到 "周公解夢"—— 通過腦信號還原夢境內(nèi)容。配套發(fā)布的 BrainToken 平臺,匯聚的神經(jīng)科學數(shù)據(jù)已經(jīng)突破萬億 Token。
![]()
在 AI 制藥領(lǐng)域,悟界?OpenComplex 2.5 用單一模型統(tǒng)一覆蓋了制藥四大關(guān)鍵步驟,為神經(jīng)退行性疾病等難成藥靶點提供了新技術(shù)路徑。
![]()
如果說世界模型給 AI 賦予了「常識」,那么智能體則讓 AI 長出了「手腳」。
在智能體層面,智源一口氣發(fā)布了四款產(chǎn)品:與安貞醫(yī)院聯(lián)合研發(fā)的心臟輔助診斷智能體,診斷 AUC 超過 0.93;
面向科學發(fā)現(xiàn)的自主研究智能體 AREX,比肩萬億參數(shù)級旗艦模型;面向個人用戶的 SoulAgent,Token 成本節(jié)省 30%,資源占用降低 80%;以及面向生物安全的風險發(fā)現(xiàn)智能體,首次打通干濕實驗閉環(huán)。
![]()
在基礎生態(tài)層面,F(xiàn)lagOS 2.1 適配 18 家芯片廠商的 32 款芯片,是全球適配芯片品類最多的計算系統(tǒng)。發(fā)布即多芯適配,DAY 0 即可完成主流模型的多款芯片適配。FlagCX 通信庫更是實現(xiàn)了全球 AI 芯片通信的 ITU 國際標準與國家標準 "雙立項"。
![]()
目前FlagOS 的生態(tài)成員已超過 80 家,全球下載量超過 37.5 萬次,觸及開發(fā)者 5.6 萬人,內(nèi)置算子總數(shù)超過 600 個,這套開源生態(tài)的盤子正在持續(xù)滾大。
大會現(xiàn)場的體驗區(qū)更是直觀展示了這些技術(shù)的落地成果:全球首個跨本體人形機器人全自主乒乓球?qū)Υ蛳到y(tǒng)、
![]()
能完成套垃圾袋和雙手協(xié)同清理等復雜任務的酒店清潔機器人、安貞 - 智源心臟 AI 醫(yī)院體驗區(qū)、神經(jīng)科學與 AI 藥物發(fā)現(xiàn)展區(qū),讓參會者親手操作、沉浸式感受 AI 與物理世界的交互。
![]()
面向未來:青年領(lǐng)軍與冷靜判斷
本屆大會最具深度的討論,出現(xiàn)在王仲遠主持的巔峰對話圓桌。
![]()
小米羅福莉認為 Claude Fable 5 本質(zhì)仍是預訓練、數(shù)據(jù)與強化學習的自然結(jié)果;
![]()
清華朱軍指出 Token 消耗下降是行業(yè)正確方向;
![]()
劉知遠分析 Anthropic 的成功源于找準代碼這一專業(yè)領(lǐng)域,強調(diào)智能革命的本質(zhì)在于用 AI 替代機械重復的腦力勞動;
![]()
安波則提出 AI 自進化不能依賴封閉環(huán)境。
![]()
而在黃鐵軍與王堅的播客對話中,兩位行業(yè)老兵探討了更宏大的命題:中國大模型如何從追趕驗證走向路線選擇、體系構(gòu)建與范式創(chuàng)新,如何從 "跟隨國際主流范式" 轉(zhuǎn)向 "形成自身問題意識"、實現(xiàn)原創(chuàng)范式躍遷。
![]()
在閉幕演講中,黃鐵軍更系統(tǒng)地提出了 AGI 五級演進時間表與風險框架:
Level 0(認知低于人類):已成為過去,風險在于誤用、濫用與惡用
Level 1(認知超人):正在當下發(fā)生,人類面臨 "躺平" 或 "理性信任" 的選擇
Level 2(具身超人):預計 2035 年實現(xiàn),屆時人類將超出對其物理控制的能力
Level 3(感知認知結(jié)合產(chǎn)生意識):代表著 "機器崛起"
Level 4(產(chǎn)生自我意識):預計 2045 年,可能導致人類成為次等物種
Level 5(脫離人類知識和大腦架構(gòu)):意味著 AGI 獨自探索宇宙
![]()
在智源,有一個傳統(tǒng)叫"青年挑大梁"。當年悟道系列的核心團隊,平均年齡只有 30 歲。今天領(lǐng)銜悟界?Physis 研發(fā)的,是 22 歲的陳博遠。
對于世界模型的時間表,王仲遠保持著科研工作者特有的冷靜:"至少還需要好幾年。科研就是這樣,可能卡在一個地方三五年沒有突破,也可能突然就突破了。未來三到五年,都會是世界模型持續(xù)演進的階段。"
![]()
但方向已經(jīng)無比清晰。當 AI 學會了 "思考" 物理規(guī)律,并長出能自主行動的 "手腳",它終于不再只是 "紙上談兵",而是開始真正理解世界,并展開行動。
![]()
從預測下一個詞元,到預測下一個物理狀態(tài);從理解數(shù)字世界,到理解物理世界;從悟道,到悟界。
八年來,智源用自己的節(jié)奏,一步一個腳印地走在最前面。
正如黃鐵軍在閉幕演講中引用圖靈的那句名言:"吾等目力短亦淺,能見百事待踐行"。
智源正以 "結(jié)構(gòu)決定功能" 與 "功能塑造結(jié)構(gòu)" 的辯證統(tǒng)一,以 "吾道一以貫之" 的戰(zhàn)略定力,推動人工智能、物理世界和生命科學 "三體互動",構(gòu)建 AGI 的大腦、眼睛和身體閉環(huán),讓智能真正嵌入物理世界。
![]()
而每年六月的智源大會,就是我們觀察這個時代進程最好的窗口 ——在這里,你總能看到人工智能的未來。
![]()
![]()
前沿動態(tài)前沿大會
前沿人物
點「在看」,給前前加雞腿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.