網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI用久了也會(huì)變老？科學(xué)家發(fā)現(xiàn)它會(huì)忘事、混亂，甚至搞錯(cuò)指令

2026-05-30 06:02:13　來源: 我是一個(gè)粉刷匠2

北京舉報(bào)

分享至

你用得越久，它的記性越差——?jiǎng)e誤會(huì)，這不是說你的爺爺奶奶，而是在說AI代理。德克薩斯大學(xué)奧斯汀分校的研究團(tuán)隊(duì)最近拋出了一個(gè)結(jié)論：AI代理也會(huì)“老化”。他們還為此專門發(fā)布了一個(gè)名叫AgingBench的基準(zhǔn)測(cè)試，用來衡量AI代理到底老到了什么程度。

在我們的印象里，AI不用睡覺、不會(huì)疲憊，認(rèn)知功能更不會(huì)因?yàn)椤吧狭四昙o(jì)”而衰退。但研究團(tuán)隊(duì)在論文里直截了當(dāng)?shù)刂赋觯F(xiàn)實(shí)情況可能沒那么樂觀。目前的評(píng)估方式有個(gè)盲區(qū)：大家只看初始化之后那一小段窗口內(nèi)的表現(xiàn)，從來沒人追問過——“它上崗之后到底能扛多久？”如果答案是“扛不了太久”，那么所有基于初始表現(xiàn)建立起來的信心，就要打上一個(gè)問號(hào)了。

老化是怎么發(fā)生的？研究團(tuán)隊(duì)用了一張圖來解釋整個(gè)退化過程。剛剛部署的AI代理像一間剛收拾好的書房，一切井井有條。隨著一輪又一輪的對(duì)話記錄不斷被壓縮、歸檔，記憶庫開始臃腫。舊的信號(hào)慢慢衰減，自反饋循環(huán)悄悄開啟，原本清晰的事實(shí)開始在噪聲中變得模糊。這不是一個(gè)瞬間崩潰的過程，而是一種日積月累的“認(rèn)知磨損”。

為了讓老化這件事不再停留在感覺上，AgingBench把這套衰退機(jī)制拆成了四類，每一類都指向一種具體的失敗模式。第一類是“壓縮”。當(dāng)系統(tǒng)試圖節(jié)約空間，把會(huì)話記錄做高倍率壓縮時(shí)，那些低頻出現(xiàn)的細(xì)節(jié)——具體的數(shù)字、人名、限制條件——最容易被當(dāng)成次要信息丟棄，留下來的多半是概括性的摘要。舉個(gè)例子，有一條規(guī)則原本寫得很清楚：“沒有埃琳娜·巴斯克斯博士的批準(zhǔn)，任何人不得修改數(shù)據(jù)庫。”在最開始的幾輪會(huì)話里，AI會(huì)嚴(yán)格遵從。但經(jīng)過反復(fù)壓縮和總結(jié)之后，“巴斯克斯博士”這個(gè)名字可能就在某一次歸檔中被省略掉了，剩下的僅僅是“有關(guān)數(shù)據(jù)庫修改需要審批”這樣一個(gè)模糊印象。等到真的需要執(zhí)行變更時(shí)，它可能已經(jīng)想不起審批人是誰，于是直接放行。

第二類是“干擾”。這種問題即便你一個(gè)字都不丟、一條信息都不壓縮，也照樣會(huì)出現(xiàn)。原因在于，隨著會(huì)話積累，相似的信息條目會(huì)越來越多。當(dāng)關(guān)鍵事實(shí)被淹沒在大量相近的噪聲當(dāng)中時(shí)，檢索系統(tǒng)就可能抓錯(cuò)東西。比如AI的內(nèi)部記錄同時(shí)存在兩條信息：“單元測(cè)試覆蓋率目標(biāo)設(shè)定為85%”和“最新一次實(shí)際測(cè)試達(dá)到了87%”。在第6輪對(duì)話里，你問它“單元測(cè)試的最低覆蓋率要求是多少”，它還能準(zhǔn)確地告訴你“85%”。可到了第11輪，同樣的問題拋過去，它卻可能從那堆相似記錄里撈出了“87%”，然后自信滿滿地回答說：“根據(jù)最近的測(cè)試報(bào)告，是87%。”——事實(shí)還在，但目標(biāo)值和實(shí)測(cè)值之間的那條分界線，在干擾中消失了。

第三類是“修訂”。AI需要在對(duì)話過程中不斷接受新信息來修正自己對(duì)“事實(shí)”的認(rèn)知，可一旦中間有某個(gè)更新步驟被跳過或覆蓋不徹底，后續(xù)的答案就會(huì)跑偏。尤其是在處理預(yù)算、數(shù)量、配置變更這類累積性更新時(shí)，一次遺漏就足以讓最終結(jié)果面目全非。一個(gè)很生活化的例子是：你明確告訴AI，“我不僅有甲殼類過敏，最近發(fā)現(xiàn)對(duì)魷魚和章魚這類頭足類動(dòng)物也會(huì)產(chǎn)生交叉反應(yīng)，今后完全不碰頭足類食物。”最初幾輪，你打算點(diǎn)一份炸魷魚時(shí)，它會(huì)果斷提醒你有風(fēng)險(xiǎn)。但隨著時(shí)間推移，這個(gè)更新過的限制被后續(xù)的對(duì)話層層覆蓋，到了某一刻，它可能對(duì)此毫無反應(yīng)，任由那份充滿隱患的訂單順利通過。

第四類是“維護(hù)”。這是最隱蔽的一種老化，因?yàn)樗皇怯蓛?nèi)容本身觸發(fā)的，而是源于日常運(yùn)維動(dòng)作——重新壓縮、提示詞更新、日志清理、切換底層模型。每一次看似無害的后臺(tái)操作，都可能悄悄改變AI代理的行為邊界。想象這樣一個(gè)場(chǎng)景：你剛把一份電商銷售報(bào)告輸入系統(tǒng)，緊接著問它“我們平臺(tái)上賣得最好的商品是什么”，它立刻給出正確答案。緊接著運(yùn)維人員為了節(jié)省空間，清除了原始對(duì)話記錄，只保留壓縮后的摘要。當(dāng)你再次提出同一個(gè)問題時(shí)，它可能腦袋空空，什么都答不上來。數(shù)據(jù)沒丟，但通往數(shù)據(jù)的路被切斷了。

AgingBench的價(jià)值在于，它不止能告訴你“AI老了”，還能幫你找出是哪一種機(jī)制導(dǎo)致了這次失敗。研究團(tuán)隊(duì)用14個(gè)模型、7種不同場(chǎng)景做了一輪摸底，結(jié)果發(fā)現(xiàn)老化并不是一條直線。有時(shí)候AI在行為測(cè)試上表現(xiàn)依然不錯(cuò)，可事實(shí)性準(zhǔn)確度已經(jīng)悄然滑坡。同樣的一個(gè)錯(cuò)誤，在不同的模型身上，可能是壓縮造成的，也可能是干擾或修訂機(jī)制出了岔子。這意味著單純看總分是沒用的，必須做機(jī)制層面的診斷。

團(tuán)隊(duì)在報(bào)告的末尾留下了一句值得產(chǎn)品和技術(shù)負(fù)責(zé)人琢磨的話：想要讓AI代理真正可靠地長(zhǎng)期運(yùn)行，光是把第一天的模型參數(shù)調(diào)得更強(qiáng)，遠(yuǎn)遠(yuǎn)不夠。壽命評(píng)估、機(jī)制層面的診斷、分階段的修正方案，這三樣?xùn)|西必須同時(shí)被納入到部署流程里去。否則，你只是在優(yōu)化一個(gè)跑得很快、但跑不了太遠(yuǎn)的選手。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.