你用得越久,它的記性越差——?jiǎng)e誤會(huì),這不是說你的爺爺奶奶,而是在說AI代理。德克薩斯大學(xué)奧斯汀分校的研究團(tuán)隊(duì)最近拋出了一個(gè)結(jié)論:AI代理也會(huì)“老化”。他們還為此專門發(fā)布了一個(gè)名叫AgingBench的基準(zhǔn)測(cè)試,用來衡量AI代理到底老到了什么程度。
在我們的印象里,AI不用睡覺、不會(huì)疲憊,認(rèn)知功能更不會(huì)因?yàn)椤吧狭四昙o(jì)”而衰退。但研究團(tuán)隊(duì)在論文里直截了當(dāng)?shù)刂赋觯F(xiàn)實(shí)情況可能沒那么樂觀。目前的評(píng)估方式有個(gè)盲區(qū):大家只看初始化之后那一小段窗口內(nèi)的表現(xiàn),從來沒人追問過——“它上崗之后到底能扛多久?”如果答案是“扛不了太久”,那么所有基于初始表現(xiàn)建立起來的信心,就要打上一個(gè)問號(hào)了。
![]()
老化是怎么發(fā)生的?研究團(tuán)隊(duì)用了一張圖來解釋整個(gè)退化過程。剛剛部署的AI代理像一間剛收拾好的書房,一切井井有條。隨著一輪又一輪的對(duì)話記錄不斷被壓縮、歸檔,記憶庫開始臃腫。舊的信號(hào)慢慢衰減,自反饋循環(huán)悄悄開啟,原本清晰的事實(shí)開始在噪聲中變得模糊。這不是一個(gè)瞬間崩潰的過程,而是一種日積月累的“認(rèn)知磨損”。
![]()
為了讓老化這件事不再停留在感覺上,AgingBench把這套衰退機(jī)制拆成了四類,每一類都指向一種具體的失敗模式。第一類是“壓縮”。當(dāng)系統(tǒng)試圖節(jié)約空間,把會(huì)話記錄做高倍率壓縮時(shí),那些低頻出現(xiàn)的細(xì)節(jié)——具體的數(shù)字、人名、限制條件——最容易被當(dāng)成次要信息丟棄,留下來的多半是概括性的摘要。舉個(gè)例子,有一條規(guī)則原本寫得很清楚:“沒有埃琳娜·巴斯克斯博士的批準(zhǔn),任何人不得修改數(shù)據(jù)庫。”在最開始的幾輪會(huì)話里,AI會(huì)嚴(yán)格遵從。但經(jīng)過反復(fù)壓縮和總結(jié)之后,“巴斯克斯博士”這個(gè)名字可能就在某一次歸檔中被省略掉了,剩下的僅僅是“有關(guān)數(shù)據(jù)庫修改需要審批”這樣一個(gè)模糊印象。等到真的需要執(zhí)行變更時(shí),它可能已經(jīng)想不起審批人是誰,于是直接放行。
第二類是“干擾”。這種問題即便你一個(gè)字都不丟、一條信息都不壓縮,也照樣會(huì)出現(xiàn)。原因在于,隨著會(huì)話積累,相似的信息條目會(huì)越來越多。當(dāng)關(guān)鍵事實(shí)被淹沒在大量相近的噪聲當(dāng)中時(shí),檢索系統(tǒng)就可能抓錯(cuò)東西。比如AI的內(nèi)部記錄同時(shí)存在兩條信息:“單元測(cè)試覆蓋率目標(biāo)設(shè)定為85%”和“最新一次實(shí)際測(cè)試達(dá)到了87%”。在第6輪對(duì)話里,你問它“單元測(cè)試的最低覆蓋率要求是多少”,它還能準(zhǔn)確地告訴你“85%”。可到了第11輪,同樣的問題拋過去,它卻可能從那堆相似記錄里撈出了“87%”,然后自信滿滿地回答說:“根據(jù)最近的測(cè)試報(bào)告,是87%。”——事實(shí)還在,但目標(biāo)值和實(shí)測(cè)值之間的那條分界線,在干擾中消失了。
第三類是“修訂”。AI需要在對(duì)話過程中不斷接受新信息來修正自己對(duì)“事實(shí)”的認(rèn)知,可一旦中間有某個(gè)更新步驟被跳過或覆蓋不徹底,后續(xù)的答案就會(huì)跑偏。尤其是在處理預(yù)算、數(shù)量、配置變更這類累積性更新時(shí),一次遺漏就足以讓最終結(jié)果面目全非。一個(gè)很生活化的例子是:你明確告訴AI,“我不僅有甲殼類過敏,最近發(fā)現(xiàn)對(duì)魷魚和章魚這類頭足類動(dòng)物也會(huì)產(chǎn)生交叉反應(yīng),今后完全不碰頭足類食物。”最初幾輪,你打算點(diǎn)一份炸魷魚時(shí),它會(huì)果斷提醒你有風(fēng)險(xiǎn)。但隨著時(shí)間推移,這個(gè)更新過的限制被后續(xù)的對(duì)話層層覆蓋,到了某一刻,它可能對(duì)此毫無反應(yīng),任由那份充滿隱患的訂單順利通過。
![]()
第四類是“維護(hù)”。這是最隱蔽的一種老化,因?yàn)樗皇怯蓛?nèi)容本身觸發(fā)的,而是源于日常運(yùn)維動(dòng)作——重新壓縮、提示詞更新、日志清理、切換底層模型。每一次看似無害的后臺(tái)操作,都可能悄悄改變AI代理的行為邊界。想象這樣一個(gè)場(chǎng)景:你剛把一份電商銷售報(bào)告輸入系統(tǒng),緊接著問它“我們平臺(tái)上賣得最好的商品是什么”,它立刻給出正確答案。緊接著運(yùn)維人員為了節(jié)省空間,清除了原始對(duì)話記錄,只保留壓縮后的摘要。當(dāng)你再次提出同一個(gè)問題時(shí),它可能腦袋空空,什么都答不上來。數(shù)據(jù)沒丟,但通往數(shù)據(jù)的路被切斷了。
AgingBench的價(jià)值在于,它不止能告訴你“AI老了”,還能幫你找出是哪一種機(jī)制導(dǎo)致了這次失敗。研究團(tuán)隊(duì)用14個(gè)模型、7種不同場(chǎng)景做了一輪摸底,結(jié)果發(fā)現(xiàn)老化并不是一條直線。有時(shí)候AI在行為測(cè)試上表現(xiàn)依然不錯(cuò),可事實(shí)性準(zhǔn)確度已經(jīng)悄然滑坡。同樣的一個(gè)錯(cuò)誤,在不同的模型身上,可能是壓縮造成的,也可能是干擾或修訂機(jī)制出了岔子。這意味著單純看總分是沒用的,必須做機(jī)制層面的診斷。
團(tuán)隊(duì)在報(bào)告的末尾留下了一句值得產(chǎn)品和技術(shù)負(fù)責(zé)人琢磨的話:想要讓AI代理真正可靠地長(zhǎng)期運(yùn)行,光是把第一天的模型參數(shù)調(diào)得更強(qiáng),遠(yuǎn)遠(yuǎn)不夠。壽命評(píng)估、機(jī)制層面的診斷、分階段的修正方案,這三樣?xùn)|西必須同時(shí)被納入到部署流程里去。否則,你只是在優(yōu)化一個(gè)跑得很快、但跑不了太遠(yuǎn)的選手。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.