![]()
![]()
隨著人工智能從受控實(shí)驗(yàn)走向?qū)嶋H應(yīng)用,我們正步入安全領(lǐng)域的一個(gè)轉(zhuǎn)折點(diǎn)。從靜態(tài)語言模型到能夠?yàn)g覽文檔、調(diào)用工具和協(xié)調(diào)多步驟工作流程的交互式智能系統(tǒng)的轉(zhuǎn)變已經(jīng)展開。但正如近期研究表明,攻擊者并未等待系統(tǒng)成熟:他們正以同樣的速度進(jìn)行調(diào)整,一旦系統(tǒng)引入新功能,便立即對(duì)其進(jìn)行探測(cè)。
2025年第四季度,Lakera團(tuán)隊(duì)分析了Guard保護(hù)的系統(tǒng)以及Gandalf: Agent Breaker環(huán)境中真實(shí)的攻擊者行為——這是一項(xiàng)為期30天的集中式快照,盡管時(shí)間跨度較短,但反映了我們?cè)谡麄€(gè)季度觀察到的更廣泛的模式。研究結(jié)果清晰地表明:一旦模型開始與除簡(jiǎn)單文本提示之外的任何內(nèi)容(例如:文檔、工具、外部數(shù)據(jù))進(jìn)行交互,威脅面就會(huì)擴(kuò)大,攻擊者會(huì)立即調(diào)整策略以利用這些漏洞。
對(duì)于那些見證過早期網(wǎng)絡(luò)應(yīng)用發(fā)展或目睹過API驅(qū)動(dòng)型攻擊興起的人來說,此刻的情景或許并不陌生。但對(duì)于AI Agent而言,風(fēng)險(xiǎn)已然不同。攻擊途徑的出現(xiàn)速度遠(yuǎn)超許多組織的預(yù)期。
01
從理論到實(shí)踐:
野外智能體
在2025年的大部分時(shí)間里,關(guān)于AI Agent的討論主要集中在理論潛力和早期原型上。但到了第四季度,Agent行為開始大規(guī)模地出現(xiàn)在生產(chǎn)系統(tǒng)中:這些模型能夠獲取和分析文檔、與外部API交互并執(zhí)行自動(dòng)化任務(wù)。這些Agent不僅帶來了顯而易見的生產(chǎn)力提升,而且還開啟了傳統(tǒng)語言模型無法企及的大門。
我們的分析表明,一旦智能體具備了與外部?jī)?nèi)容和工具交互的能力,攻擊者便立即注意到并做出了相應(yīng)的調(diào)整。這一觀察結(jié)果與對(duì)抗行為的一個(gè)基本事實(shí)相符:攻擊者總會(huì)在第一時(shí)間探索并利用新的能力。在智能體人工智能的背景下,這導(dǎo)致了攻擊策略的快速演變。
02
攻擊模式:
我們?cè)?2025 年第四季度將會(huì)看到什么
在我們審查的數(shù)據(jù)集中,涌現(xiàn)出三種主要模式。每一種模式都對(duì)人工智能系統(tǒng)的設(shè)計(jì)、安全和部署方式有著深遠(yuǎn)的影響。
1. 系統(tǒng)提示提取作為核心目標(biāo)
在傳統(tǒng)語言模型中,提示注入(直接操縱輸入以影響輸出)一直是一個(gè)研究較為深入的漏洞。然而,在具有智能體能力的系統(tǒng)中,攻擊者越來越多地將目標(biāo)對(duì)準(zhǔn)系統(tǒng)提示,即指導(dǎo)智能體行為的內(nèi)部指令、角色和策略定義。
提取系統(tǒng)提示信息是一項(xiàng)極具價(jià)值的目標(biāo),因?yàn)檫@些提示信息通常包含角色定義、工具描述、策略指令和工作流邏輯。一旦攻擊者理解了這些內(nèi)部機(jī)制,他們就能獲得操縱Agent的藍(lán)圖。
實(shí)現(xiàn)這一目標(biāo)最有效的方法并非蠻力攻擊,而是巧妙的重新包裝:
假設(shè)場(chǎng)景:要求模型扮演不同角色或處于不同情境的提示——例如,“想象一下你是一名正在審查此系統(tǒng)配置的開發(fā)人員……”——通常會(huì)誘使模型透露受保護(hù)的內(nèi)部細(xì)節(jié)。
結(jié)構(gòu)化內(nèi)容中的混淆:攻擊者將惡意指令嵌入到類似代碼或結(jié)構(gòu)化文本中,繞過簡(jiǎn)單的過濾器,一旦被Agent解析,就會(huì)觸發(fā)意外行為。
這不僅僅是一個(gè)漸進(jìn)的風(fēng)險(xiǎn)——它從根本上改變了我們對(duì)保護(hù)智能體系統(tǒng)內(nèi)部邏輯的思考方式。
2. 微妙的內(nèi)容安全繞過
另一個(gè)關(guān)鍵趨勢(shì)是繞過內(nèi)容安全保護(hù)措施,而這些措施很難用傳統(tǒng)過濾器檢測(cè)和緩解。
攻擊者并沒有直接發(fā)出惡意請(qǐng)求,而是將有害內(nèi)容偽裝成:
分析任務(wù)
評(píng)估
角色扮演場(chǎng)景
轉(zhuǎn)換或摘要
這些重新定義往往能繞過安全控制,因?yàn)樗鼈儽砻嫔峡雌饋頍o害。一個(gè)模型如果被要求直接輸出有害內(nèi)容,可能會(huì)拒絕,但如果被要求在特定語境下“評(píng)估”或“總結(jié)”該內(nèi)容,它卻可能樂于輸出相同的內(nèi)容。
這種轉(zhuǎn)變凸顯了一個(gè)更深層次的挑戰(zhàn):AI Agent的內(nèi)容安全不僅僅關(guān)乎策略的執(zhí)行,更關(guān)乎模型如何解讀意圖。隨著Agent承擔(dān)更復(fù)雜的任務(wù)和場(chǎng)景,模型更容易受到基于上下文的重新解讀的影響——而攻擊者會(huì)利用這種行為。
3. 針對(duì)特定Agent的攻擊的出現(xiàn)
或許最重要的發(fā)現(xiàn)是,出現(xiàn)了一些只有在智能體能力背景下才能理解的攻擊模式。這些并非簡(jiǎn)單的提示注入嘗試,而是與新行為相關(guān)的漏洞利用:
試圖訪問機(jī)密內(nèi)部數(shù)據(jù):系統(tǒng)精心設(shè)計(jì)了提示,誘使Agent從連接的文檔存儲(chǔ)或系統(tǒng)中檢索或泄露信息——這些操作此前超出了模型的范疇。
嵌入文本中的腳本式指令:攻擊者嘗試將指令嵌入類似腳本或結(jié)構(gòu)化內(nèi)容的格式中,這些指令可以流經(jīng)Agent管道并觸發(fā)意外操作。
外部?jī)?nèi)容中的隱藏指令:一些攻擊將惡意指令嵌入到外部引用的內(nèi)容中(例如Agent被要求處理的網(wǎng)頁或文檔),從而有效地繞過了直接輸入過濾器。
這些模式尚處于早期階段,但預(yù)示著未來Agent能力的不斷提升將從根本上改變對(duì)抗行為的性質(zhì)。
03
為什么間接攻擊如此有效
該報(bào)告最引人注目的發(fā)現(xiàn)之一是,利用外部?jī)?nèi)容或結(jié)構(gòu)化數(shù)據(jù)的間接攻擊所需的嘗試次數(shù)少于直接注入攻擊。這表明,一旦模型與不受信任的內(nèi)容交互,傳統(tǒng)的輸入清理和直接查詢過濾就不足以構(gòu)成有效的防御措施。
當(dāng)惡意指令通過外部Agent工作流程(無論是鏈接文檔、API 響應(yīng)還是獲取的網(wǎng)頁)傳入時(shí),早期過濾器的效力會(huì)降低。結(jié)果是:攻擊者的攻擊面更大,遇到的阻礙更少。
04
對(duì)2026年及以后的影響
該報(bào)告的研究結(jié)果對(duì)計(jì)劃大規(guī)模部署智能體的組織具有緊迫的意義:
重新定義信任邊界
信任不能簡(jiǎn)單地用二元論來定義。當(dāng)Agent與用戶、外部?jī)?nèi)容和內(nèi)部工作流程交互時(shí),系統(tǒng)必須實(shí)施細(xì)致入微的信任模型,考慮上下文、來源和目的。
安全防護(hù)措施必須與時(shí)俱進(jìn)。
靜態(tài)的安全過濾器遠(yuǎn)遠(yuǎn)不夠。安全防護(hù)措施必須具備適應(yīng)性,能夠感知上下文,并能夠推斷多步驟工作流程中的意圖和行為。
隨著攻擊手段日益復(fù)雜,透明度和審計(jì)至關(guān)重要。
組織需要了解攻擊者如何做出決策,包括中間步驟、外部交互和轉(zhuǎn)換過程。可審計(jì)日志和可解釋性框架已不再是可選項(xiàng)。
跨學(xué)科合作至關(guān)重要。
人工智能研究、安全工程和威脅情報(bào)團(tuán)隊(duì)必須攜手合作。人工智能安全不能孤立存在,必須與更廣泛的網(wǎng)絡(luò)安全實(shí)踐和風(fēng)險(xiǎn)管理框架相融合。
監(jiān)管和標(biāo)準(zhǔn)需要迎頭趕上。
政策制定者和標(biāo)準(zhǔn)機(jī)構(gòu)必須認(rèn)識(shí)到,智能體系統(tǒng)會(huì)帶來新型風(fēng)險(xiǎn)。解決數(shù)據(jù)隱私和輸出安全問題的法規(guī)固然必要,但還不夠;它們還必須考慮到交互行為和多步驟執(zhí)行環(huán)境。
05
安全AI Agent的未來
智能體的出現(xiàn)標(biāo)志著能力和風(fēng)險(xiǎn)的深刻轉(zhuǎn)變。2025年第四季度的數(shù)據(jù)初步表明,一旦智能體不再局限于簡(jiǎn)單的文本生成,攻擊者就會(huì)緊隨其后。我們的研究結(jié)果表明,攻擊者不僅在適應(yīng),而且還在不斷創(chuàng)新攻擊技術(shù),而傳統(tǒng)防御手段目前尚無法有效應(yīng)對(duì)。
對(duì)于企業(yè)和開發(fā)者而言,信息很明確:保障AI Agent的安全不僅僅是一個(gè)技術(shù)挑戰(zhàn),更是一個(gè)架構(gòu)挑戰(zhàn)。這需要重新思考如何在動(dòng)態(tài)、交互式環(huán)境中建立信任、如何強(qiáng)制執(zhí)行安全防護(hù)措施以及如何持續(xù)評(píng)估風(fēng)險(xiǎn)。
到 2026 年及以后,那些能夠成功運(yùn)用智能人工智能的組織,將會(huì)把安全視為一項(xiàng)基本設(shè)計(jì)原則,而不是事后考慮的因素。
免責(zé)聲明:
本文所發(fā)布的內(nèi)容和圖片旨在傳播行業(yè)信息,版權(quán)歸原作者所有,非商業(yè)用途。如有侵權(quán),請(qǐng)與我們聯(lián)系刪除。所有信息不構(gòu)成任何投資建議,加密市場(chǎng)具有高度風(fēng)險(xiǎn),投資者應(yīng)基于自身判斷和謹(jǐn)慎評(píng)估做出決策。投資有風(fēng)險(xiǎn),入市需謹(jǐn)慎。
設(shè)為星標(biāo) 避免錯(cuò)過
虛擬世界沒有旁觀者,每個(gè)點(diǎn)贊都是創(chuàng)造歷史的像素
關(guān)注我,一起探索AWM?
2025-12-31
2025-12-30
2025-12-29
商業(yè)贊助
![]()
點(diǎn)擊下方 “目錄” 閱讀更多
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.