你可能已經(jīng)習(xí)慣了ChatGPT的妙語(yǔ)連珠,但有一個(gè)問(wèn)題它始終繞不過(guò)去:它其實(shí)"看不見(jiàn)"外面的世界。你問(wèn)它今天天氣如何,它只能瞎編;你讓它描述你手里的咖啡杯,它完全無(wú)能為力。這不是bug,而是大語(yǔ)言模型(LLM)的天生局限——它們只活在文本里,對(duì)物理世界一無(wú)所知。
但事情正在起變化。最近,MIT Technology Review搞了一場(chǎng)內(nèi)部圓桌討論,主編Mat Honan帶著兩位AI報(bào)道線的資深編輯Will Douglas Heaven和Grace Huckins,聊了一個(gè)挺有意思的話題:AI能不能學(xué)會(huì)理解真實(shí)世界?這場(chǎng)對(duì)話錄制于2026年5月21日,目前只對(duì)MIT校友和訂閱者開(kāi)放。
![]()
所謂"世界模型"(world models),簡(jiǎn)單說(shuō)就是AI不再滿足于當(dāng)"書(shū)呆子",而是想擁有某種"常識(shí)"——知道物體有重量、會(huì)掉落,知道時(shí)間往前流逝,知道行動(dòng)會(huì)帶來(lái)后果。這不是科幻。OpenAI的Sora視頻生成模型、谷歌的Gemini多模態(tài)系統(tǒng),背后都在試探這條路。它們未必真的"理解"物理規(guī)律,但已經(jīng)在模仿理解的樣子。
![]()
討論中有個(gè)細(xì)節(jié)挺耐人尋味。三位編輯并沒(méi)有急著下結(jié)論說(shuō)"世界模型已經(jīng)成功了"或者"這純屬炒作",而是反復(fù)在問(wèn):我們?cè)趺磁袛郃I是真的懂了,還是只是演得很像?這個(gè)問(wèn)題本身,暴露了當(dāng)前AI研究的一個(gè)尷尬處境——我們甚至沒(méi)有一個(gè)公認(rèn)的標(biāo)準(zhǔn),來(lái)測(cè)試"機(jī)器是否理解世界"。
Grace Huckins提到,一些研究團(tuán)隊(duì)正在嘗試讓AI在虛擬環(huán)境中"生活":給它一個(gè)任務(wù),比如"把桌上的杯子放進(jìn)洗碗機(jī)",看它能不能規(guī)劃步驟、應(yīng)對(duì)意外。這些實(shí)驗(yàn)還處于很早期的階段。Will Douglas Heaven則指出,真正的難點(diǎn)不在于讓AI識(shí)別物體,而在于讓它建立"因果"——知道"因?yàn)槲彝屏耍员拥袅?,而不是僅僅統(tǒng)計(jì)出"推"和"掉"經(jīng)常同時(shí)出現(xiàn)。
這里有個(gè)反直覺(jué)的點(diǎn):人類嬰兒似乎天生就帶有一些物理直覺(jué),比如知道固體不會(huì)穿墻而過(guò)。但AI沒(méi)有這種"出廠設(shè)置",一切都要從零學(xué)起。更麻煩的是,我們給AI喂的數(shù)據(jù),無(wú)論是視頻還是傳感器記錄,都只是世界的"投影",不是世界本身。這就像讓人通過(guò)看皮影戲來(lái)學(xué)解剖——能猜個(gè)大概,但摸到真骨頭完全是另一回事。
Mat Honan在討論中拋出了一個(gè)更實(shí)際的擔(dān)憂:即便技術(shù)可行,誰(shuí)來(lái)決定AI應(yīng)該"理解"什么樣的世界?一個(gè)在美國(guó)郊區(qū)訓(xùn)練出來(lái)的世界模型,到了孟買擁堵的街頭可能就傻眼了。理解世界從來(lái)不是中立的技術(shù)問(wèn)題,背后藏著價(jià)值觀和權(quán)力結(jié)構(gòu)。
這場(chǎng)圓桌沒(méi)有給出標(biāo)準(zhǔn)答案,但梳理了幾條值得關(guān)注的線索。一是"具身智能"的興起——讓AI有身體,在真實(shí)或虛擬環(huán)境中試錯(cuò)學(xué)習(xí);二是神經(jīng)科學(xué)與AI的交叉,研究人員試圖從人腦處理空間、時(shí)間的機(jī)制里偷師;三是評(píng)估標(biāo)準(zhǔn)的建立,畢竟沒(méi)有尺子,就談不上進(jìn)步。
![]()
說(shuō)到評(píng)估,Stanford大學(xué)剛發(fā)布的2026年AI Index報(bào)告提供了一個(gè)宏觀視角:AI正在"沖刺",而人類在追趕理解它的腳步。MIT Technology Review自己也列出了今年AI領(lǐng)域值得關(guān)注的10個(gè)方向,世界模型赫然在列。這些信號(hào)說(shuō)明,行業(yè)已經(jīng)把"走出文本、進(jìn)入世界"當(dāng)成了下一個(gè)主戰(zhàn)場(chǎng)。
不過(guò),熱鬧歸熱鬧,距離真正的突破可能還有距離。目前的"世界模型"大多局限在特定場(chǎng)景——某個(gè)游戲、某類視頻、某種機(jī)器人任務(wù)。通用意義上的"世界理解",仍然是未定之?dāng)?shù)。三位編輯在對(duì)話末尾也承認(rèn),他們更像是在記錄一場(chǎng)進(jìn)行中的探索,而不是宣布某個(gè)終點(diǎn)。
這件事對(duì)普通讀者意味著什么?短期內(nèi),你可能會(huì)看到更逼真的視頻生成、更聽(tīng)話的機(jī)器人助手,但別指望它們真的"懂"你在想什么。中長(zhǎng)期來(lái)看,如果世界模型取得實(shí)質(zhì)性進(jìn)展,AI將從"工具"變成某種"代理"——能自主規(guī)劃、適應(yīng)環(huán)境、甚至承擔(dān)后果。那將是一整套新的倫理和法律問(wèn)題。
科學(xué)家最近發(fā)現(xiàn)了一件挺有意思的事:我們連"怎么判斷AI懂不懂"都沒(méi)搞清楚,就已經(jīng)在拼命教它了。這種邊跑邊找路的狀態(tài),或許是AI研究最誠(chéng)實(shí)的寫照。畢竟,人類自己也是花了幾十萬(wàn)年才學(xué)會(huì)理解世界的,憑什么要求機(jī)器幾年就追上呢?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.