網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

【人工智能】早期針對(duì)AI Agent的攻擊預(yù)示著2026年生什么？

2026-01-02 17:46:13　來源: 七元宇宙

廣東舉報(bào)

分享至

隨著人工智能從受控實(shí)驗(yàn)走向?qū)嶋H應(yīng)用，我們正步入安全領(lǐng)域的一個(gè)轉(zhuǎn)折點(diǎn)。從靜態(tài)語言模型到能夠?yàn)g覽文檔、調(diào)用工具和協(xié)調(diào)多步驟工作流程的交互式智能系統(tǒng)的轉(zhuǎn)變已經(jīng)展開。但正如近期研究表明，攻擊者并未等待系統(tǒng)成熟：他們正以同樣的速度進(jìn)行調(diào)整，一旦系統(tǒng)引入新功能，便立即對(duì)其進(jìn)行探測(cè)。

2025年第四季度，Lakera團(tuán)隊(duì)分析了Guard保護(hù)的系統(tǒng)以及Gandalf: Agent Breaker環(huán)境中真實(shí)的攻擊者行為——這是一項(xiàng)為期30天的集中式快照，盡管時(shí)間跨度較短，但反映了我們?cè)谡麄€(gè)季度觀察到的更廣泛的模式。研究結(jié)果清晰地表明：一旦模型開始與除簡(jiǎn)單文本提示之外的任何內(nèi)容（例如：文檔、工具、外部數(shù)據(jù)）進(jìn)行交互，威脅面就會(huì)擴(kuò)大，攻擊者會(huì)立即調(diào)整策略以利用這些漏洞。

對(duì)于那些見證過早期網(wǎng)絡(luò)應(yīng)用發(fā)展或目睹過API驅(qū)動(dòng)型攻擊興起的人來說，此刻的情景或許并不陌生。但對(duì)于AI Agent而言，風(fēng)險(xiǎn)已然不同。攻擊途徑的出現(xiàn)速度遠(yuǎn)超許多組織的預(yù)期。

從理論到實(shí)踐：

野外智能體

在2025年的大部分時(shí)間里，關(guān)于AI Agent的討論主要集中在理論潛力和早期原型上。但到了第四季度，Agent行為開始大規(guī)模地出現(xiàn)在生產(chǎn)系統(tǒng)中：這些模型能夠獲取和分析文檔、與外部API交互并執(zhí)行自動(dòng)化任務(wù)。這些Agent不僅帶來了顯而易見的生產(chǎn)力提升，而且還開啟了傳統(tǒng)語言模型無法企及的大門。

我們的分析表明，一旦智能體具備了與外部?jī)?nèi)容和工具交互的能力，攻擊者便立即注意到并做出了相應(yīng)的調(diào)整。這一觀察結(jié)果與對(duì)抗行為的一個(gè)基本事實(shí)相符：攻擊者總會(huì)在第一時(shí)間探索并利用新的能力。在智能體人工智能的背景下，這導(dǎo)致了攻擊策略的快速演變。

攻擊模式：

我們?cè)?2025 年第四季度將會(huì)看到什么

在我們審查的數(shù)據(jù)集中，涌現(xiàn)出三種主要模式。每一種模式都對(duì)人工智能系統(tǒng)的設(shè)計(jì)、安全和部署方式有著深遠(yuǎn)的影響。

1. 系統(tǒng)提示提取作為核心目標(biāo)

在傳統(tǒng)語言模型中，提示注入（直接操縱輸入以影響輸出）一直是一個(gè)研究較為深入的漏洞。然而，在具有智能體能力的系統(tǒng)中，攻擊者越來越多地將目標(biāo)對(duì)準(zhǔn)系統(tǒng)提示，即指導(dǎo)智能體行為的內(nèi)部指令、角色和策略定義。

提取系統(tǒng)提示信息是一項(xiàng)極具價(jià)值的目標(biāo)，因?yàn)檫@些提示信息通常包含角色定義、工具描述、策略指令和工作流邏輯。一旦攻擊者理解了這些內(nèi)部機(jī)制，他們就能獲得操縱Agent的藍(lán)圖。

實(shí)現(xiàn)這一目標(biāo)最有效的方法并非蠻力攻擊，而是巧妙的重新包裝：

假設(shè)場(chǎng)景：要求模型扮演不同角色或處于不同情境的提示——例如，“想象一下你是一名正在審查此系統(tǒng)配置的開發(fā)人員……”——通常會(huì)誘使模型透露受保護(hù)的內(nèi)部細(xì)節(jié)。
結(jié)構(gòu)化內(nèi)容中的混淆：攻擊者將惡意指令嵌入到類似代碼或結(jié)構(gòu)化文本中，繞過簡(jiǎn)單的過濾器，一旦被Agent解析，就會(huì)觸發(fā)意外行為。

這不僅僅是一個(gè)漸進(jìn)的風(fēng)險(xiǎn)——它從根本上改變了我們對(duì)保護(hù)智能體系統(tǒng)內(nèi)部邏輯的思考方式。

2. 微妙的內(nèi)容安全繞過

另一個(gè)關(guān)鍵趨勢(shì)是繞過內(nèi)容安全保護(hù)措施，而這些措施很難用傳統(tǒng)過濾器檢測(cè)和緩解。

攻擊者并沒有直接發(fā)出惡意請(qǐng)求，而是將有害內(nèi)容偽裝成：

分析任務(wù)
評(píng)估
角色扮演場(chǎng)景
轉(zhuǎn)換或摘要

這些重新定義往往能繞過安全控制，因?yàn)樗鼈儽砻嫔峡雌饋頍o害。一個(gè)模型如果被要求直接輸出有害內(nèi)容，可能會(huì)拒絕，但如果被要求在特定語境下“評(píng)估”或“總結(jié)”該內(nèi)容，它卻可能樂于輸出相同的內(nèi)容。

這種轉(zhuǎn)變凸顯了一個(gè)更深層次的挑戰(zhàn)：AI Agent的內(nèi)容安全不僅僅關(guān)乎策略的執(zhí)行，更關(guān)乎模型如何解讀意圖。隨著Agent承擔(dān)更復(fù)雜的任務(wù)和場(chǎng)景，模型更容易受到基于上下文的重新解讀的影響——而攻擊者會(huì)利用這種行為。

3. 針對(duì)特定Agent的攻擊的出現(xiàn)

或許最重要的發(fā)現(xiàn)是，出現(xiàn)了一些只有在智能體能力背景下才能理解的攻擊模式。這些并非簡(jiǎn)單的提示注入嘗試，而是與新行為相關(guān)的漏洞利用：

試圖訪問機(jī)密內(nèi)部數(shù)據(jù)：系統(tǒng)精心設(shè)計(jì)了提示，誘使Agent從連接的文檔存儲(chǔ)或系統(tǒng)中檢索或泄露信息——這些操作此前超出了模型的范疇。
嵌入文本中的腳本式指令：攻擊者嘗試將指令嵌入類似腳本或結(jié)構(gòu)化內(nèi)容的格式中，這些指令可以流經(jīng)Agent管道并觸發(fā)意外操作。
外部?jī)?nèi)容中的隱藏指令：一些攻擊將惡意指令嵌入到外部引用的內(nèi)容中（例如Agent被要求處理的網(wǎng)頁或文檔），從而有效地繞過了直接輸入過濾器。

這些模式尚處于早期階段，但預(yù)示著未來Agent能力的不斷提升將從根本上改變對(duì)抗行為的性質(zhì)。

為什么間接攻擊如此有效

該報(bào)告最引人注目的發(fā)現(xiàn)之一是，利用外部?jī)?nèi)容或結(jié)構(gòu)化數(shù)據(jù)的間接攻擊所需的嘗試次數(shù)少于直接注入攻擊。這表明，一旦模型與不受信任的內(nèi)容交互，傳統(tǒng)的輸入清理和直接查詢過濾就不足以構(gòu)成有效的防御措施。

當(dāng)惡意指令通過外部Agent工作流程（無論是鏈接文檔、API 響應(yīng)還是獲取的網(wǎng)頁）傳入時(shí)，早期過濾器的效力會(huì)降低。結(jié)果是：攻擊者的攻擊面更大，遇到的阻礙更少。

對(duì)2026年及以后的影響

該報(bào)告的研究結(jié)果對(duì)計(jì)劃大規(guī)模部署智能體的組織具有緊迫的意義：

重新定義信任邊界
信任不能簡(jiǎn)單地用二元論來定義。當(dāng)Agent與用戶、外部?jī)?nèi)容和內(nèi)部工作流程交互時(shí)，系統(tǒng)必須實(shí)施細(xì)致入微的信任模型，考慮上下文、來源和目的。
安全防護(hù)措施必須與時(shí)俱進(jìn)。
靜態(tài)的安全過濾器遠(yuǎn)遠(yuǎn)不夠。安全防護(hù)措施必須具備適應(yīng)性，能夠感知上下文，并能夠推斷多步驟工作流程中的意圖和行為。
隨著攻擊手段日益復(fù)雜，透明度和審計(jì)至關(guān)重要。
組織需要了解攻擊者如何做出決策，包括中間步驟、外部交互和轉(zhuǎn)換過程。可審計(jì)日志和可解釋性框架已不再是可選項(xiàng)。
跨學(xué)科合作至關(guān)重要。
人工智能研究、安全工程和威脅情報(bào)團(tuán)隊(duì)必須攜手合作。人工智能安全不能孤立存在，必須與更廣泛的網(wǎng)絡(luò)安全實(shí)踐和風(fēng)險(xiǎn)管理框架相融合。
監(jiān)管和標(biāo)準(zhǔn)需要迎頭趕上。
政策制定者和標(biāo)準(zhǔn)機(jī)構(gòu)必須認(rèn)識(shí)到，智能體系統(tǒng)會(huì)帶來新型風(fēng)險(xiǎn)。解決數(shù)據(jù)隱私和輸出安全問題的法規(guī)固然必要，但還不夠；它們還必須考慮到交互行為和多步驟執(zhí)行環(huán)境。

安全AI Agent的未來

智能體的出現(xiàn)標(biāo)志著能力和風(fēng)險(xiǎn)的深刻轉(zhuǎn)變。2025年第四季度的數(shù)據(jù)初步表明，一旦智能體不再局限于簡(jiǎn)單的文本生成，攻擊者就會(huì)緊隨其后。我們的研究結(jié)果表明，攻擊者不僅在適應(yīng)，而且還在不斷創(chuàng)新攻擊技術(shù)，而傳統(tǒng)防御手段目前尚無法有效應(yīng)對(duì)。

對(duì)于企業(yè)和開發(fā)者而言，信息很明確：保障AI Agent的安全不僅僅是一個(gè)技術(shù)挑戰(zhàn)，更是一個(gè)架構(gòu)挑戰(zhàn)。這需要重新思考如何在動(dòng)態(tài)、交互式環(huán)境中建立信任、如何強(qiáng)制執(zhí)行安全防護(hù)措施以及如何持續(xù)評(píng)估風(fēng)險(xiǎn)。

到 2026 年及以后，那些能夠成功運(yùn)用智能人工智能的組織，將會(huì)把安全視為一項(xiàng)基本設(shè)計(jì)原則，而不是事后考慮的因素。

免責(zé)聲明：

本文所發(fā)布的內(nèi)容和圖片旨在傳播行業(yè)信息，版權(quán)歸原作者所有，非商業(yè)用途。如有侵權(quán)，請(qǐng)與我們聯(lián)系刪除。所有信息不構(gòu)成任何投資建議，加密市場(chǎng)具有高度風(fēng)險(xiǎn)，投資者應(yīng)基于自身判斷和謹(jǐn)慎評(píng)估做出決策。投資有風(fēng)險(xiǎn)，入市需謹(jǐn)慎。

設(shè)為星標(biāo) 避免錯(cuò)過

虛擬世界沒有旁觀者，每個(gè)點(diǎn)贊都是創(chuàng)造歷史的像素

關(guān)注我，一起探索AWM?

2025-12-31

2025-12-30

2025-12-29

商業(yè)贊助

點(diǎn)擊下方 “目錄” 閱讀更多

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.