網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI想"看懂"真實(shí)世界，還差哪一步？

2026-05-22 04:49:03　來(lái)源: 科學(xué)邊界哦

北京舉報(bào)

分享至

你可能已經(jīng)習(xí)慣了ChatGPT的妙語(yǔ)連珠，但有一個(gè)問(wèn)題它始終繞不過(guò)去：它其實(shí)"看不見(jiàn)"外面的世界。你問(wèn)它今天天氣如何，它只能瞎編；你讓它描述你手里的咖啡杯，它完全無(wú)能為力。這不是bug，而是大語(yǔ)言模型（LLM）的天生局限——它們只活在文本里，對(duì)物理世界一無(wú)所知。

但事情正在起變化。最近，MIT Technology Review搞了一場(chǎng)內(nèi)部圓桌討論，主編Mat Honan帶著兩位AI報(bào)道線的資深編輯Will Douglas Heaven和Grace Huckins，聊了一個(gè)挺有意思的話題：AI能不能學(xué)會(huì)理解真實(shí)世界？這場(chǎng)對(duì)話錄制于2026年5月21日，目前只對(duì)MIT校友和訂閱者開(kāi)放。

所謂"世界模型"（world models），簡(jiǎn)單說(shuō)就是AI不再滿足于當(dāng)"書(shū)呆子"，而是想擁有某種"常識(shí)"——知道物體有重量、會(huì)掉落，知道時(shí)間往前流逝，知道行動(dòng)會(huì)帶來(lái)后果。這不是科幻。OpenAI的Sora視頻生成模型、谷歌的Gemini多模態(tài)系統(tǒng)，背后都在試探這條路。它們未必真的"理解"物理規(guī)律，但已經(jīng)在模仿理解的樣子。

討論中有個(gè)細(xì)節(jié)挺耐人尋味。三位編輯并沒(méi)有急著下結(jié)論說(shuō)"世界模型已經(jīng)成功了"或者"這純屬炒作"，而是反復(fù)在問(wèn)：我們?cè)趺磁袛郃I是真的懂了，還是只是演得很像？這個(gè)問(wèn)題本身，暴露了當(dāng)前AI研究的一個(gè)尷尬處境——我們甚至沒(méi)有一個(gè)公認(rèn)的標(biāo)準(zhǔn)，來(lái)測(cè)試"機(jī)器是否理解世界"。

Grace Huckins提到，一些研究團(tuán)隊(duì)正在嘗試讓AI在虛擬環(huán)境中"生活"：給它一個(gè)任務(wù)，比如"把桌上的杯子放進(jìn)洗碗機(jī)"，看它能不能規(guī)劃步驟、應(yīng)對(duì)意外。這些實(shí)驗(yàn)還處于很早期的階段。Will Douglas Heaven則指出，真正的難點(diǎn)不在于讓AI識(shí)別物體，而在于讓它建立"因果"——知道"因?yàn)槲彝屏耍员拥袅?，而不是僅僅統(tǒng)計(jì)出"推"和"掉"經(jīng)常同時(shí)出現(xiàn)。

這里有個(gè)反直覺(jué)的點(diǎn)：人類嬰兒似乎天生就帶有一些物理直覺(jué)，比如知道固體不會(huì)穿墻而過(guò)。但AI沒(méi)有這種"出廠設(shè)置"，一切都要從零學(xué)起。更麻煩的是，我們給AI喂的數(shù)據(jù)，無(wú)論是視頻還是傳感器記錄，都只是世界的"投影"，不是世界本身。這就像讓人通過(guò)看皮影戲來(lái)學(xué)解剖——能猜個(gè)大概，但摸到真骨頭完全是另一回事。

Mat Honan在討論中拋出了一個(gè)更實(shí)際的擔(dān)憂：即便技術(shù)可行，誰(shuí)來(lái)決定AI應(yīng)該"理解"什么樣的世界？一個(gè)在美國(guó)郊區(qū)訓(xùn)練出來(lái)的世界模型，到了孟買擁堵的街頭可能就傻眼了。理解世界從來(lái)不是中立的技術(shù)問(wèn)題，背后藏著價(jià)值觀和權(quán)力結(jié)構(gòu)。

這場(chǎng)圓桌沒(méi)有給出標(biāo)準(zhǔn)答案，但梳理了幾條值得關(guān)注的線索。一是"具身智能"的興起——讓AI有身體，在真實(shí)或虛擬環(huán)境中試錯(cuò)學(xué)習(xí)；二是神經(jīng)科學(xué)與AI的交叉，研究人員試圖從人腦處理空間、時(shí)間的機(jī)制里偷師；三是評(píng)估標(biāo)準(zhǔn)的建立，畢竟沒(méi)有尺子，就談不上進(jìn)步。

說(shuō)到評(píng)估，Stanford大學(xué)剛發(fā)布的2026年AI Index報(bào)告提供了一個(gè)宏觀視角：AI正在"沖刺"，而人類在追趕理解它的腳步。MIT Technology Review自己也列出了今年AI領(lǐng)域值得關(guān)注的10個(gè)方向，世界模型赫然在列。這些信號(hào)說(shuō)明，行業(yè)已經(jīng)把"走出文本、進(jìn)入世界"當(dāng)成了下一個(gè)主戰(zhàn)場(chǎng)。

不過(guò)，熱鬧歸熱鬧，距離真正的突破可能還有距離。目前的"世界模型"大多局限在特定場(chǎng)景——某個(gè)游戲、某類視頻、某種機(jī)器人任務(wù)。通用意義上的"世界理解"，仍然是未定之?dāng)?shù)。三位編輯在對(duì)話末尾也承認(rèn)，他們更像是在記錄一場(chǎng)進(jìn)行中的探索，而不是宣布某個(gè)終點(diǎn)。

這件事對(duì)普通讀者意味著什么？短期內(nèi)，你可能會(huì)看到更逼真的視頻生成、更聽(tīng)話的機(jī)器人助手，但別指望它們真的"懂"你在想什么。中長(zhǎng)期來(lái)看，如果世界模型取得實(shí)質(zhì)性進(jìn)展，AI將從"工具"變成某種"代理"——能自主規(guī)劃、適應(yīng)環(huán)境、甚至承擔(dān)后果。那將是一整套新的倫理和法律問(wèn)題。

科學(xué)家最近發(fā)現(xiàn)了一件挺有意思的事：我們連"怎么判斷AI懂不懂"都沒(méi)搞清楚，就已經(jīng)在拼命教它了。這種邊跑邊找路的狀態(tài)，或許是AI研究最誠(chéng)實(shí)的寫照。畢竟，人類自己也是花了幾十萬(wàn)年才學(xué)會(huì)理解世界的，憑什么要求機(jī)器幾年就追上呢？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.