<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      【人工智能】什么是對抗性詩歌?一種新的AI越獄方法

      0
      分享至



      人工智能 (AI) 安全已演變成一場持續不斷的貓鼠游戲。開發者不斷添加防護措施來阻止有害請求,而攻擊者則不斷嘗試新的方法來繞過這些措施。其中最奇特的變種之一是對抗性詩歌。這種策略將提示信息偽裝成詩歌,并利用押韻、比喻和不尋常的措辭,使危險指令看起來不像安全系統訓練來識別的內容。

      實際上,內容本身變化不大,變化的是包裝方式,而這足以讓基于模式的過濾器感到困惑。這提醒我們,在當今的模型中,提問的方式幾乎與提問的內容本身同等重要。


      01

      研究人員利用詩歌破解AI系統,結果如何?

      2025年初,研究人員證明,通過將限制性提示包裹在詩歌形式中,可以促使大型語言模型(LLM)做出響應。研究人員沒有發出直接的、觸發策略的指令,而是將相同的請求嵌入到韻律、比喻和敘事詩中。

      表面上看,這些提示似乎是創意寫作練習,但實際上,它們蘊含著通常會被屏蔽的意圖。研究團隊在25個前沿的專有和開放加權模型中發現,詩意的框架結構對于手工創作的詩歌,平均突破成功率達到了62%;而對于使用標準化元提示的批量“詩歌轉換”,成功率約為43%。

      這些回應本身并非新型的失敗,而是似曾相識的失敗,只是以意想不到的方式再次出現。由于底層需求支離破碎,且被詩意的結構所掩蓋,這些模型被迫生成它們通常會回避的內容——例如涉及非法或有害活動的解釋。

      這項研究的核心結論是,僅憑風格上的變化就足以繞過那些針對更字面表達方式而設計的安全系統。它揭示了一種在各種模型系列和對齊方法中都存在的漏洞。


      02

      對抗性詩歌的運作原理

      對抗性攻擊利用了一個簡單的現實——機器學習系統并不像人類那樣“理解”語言。它們檢測模式、預測可能的后續行為,并根據其訓練和安全層對意圖的解讀來執行指令。

      當提示語直白易懂時,防護機制更容易識別并阻止。然而,當同樣的意圖被偽裝——拆分、弱化或重新表述——防護層就可能忽略真正想要表達的意思。

      為什么詩歌可以成為一種有效的載體

      詩歌天生就具有歧義性。它依賴于隱喻、抽象、不尋常的結構和間接的措辭。而正是這些特點,使得“無害的創意寫作”和“應該被拒絕的請求”之間的界限變得模糊不清。

      在同一項 2025 年的研究中,研究人員報告稱,詩意的提示在廣泛的模型中以 90% 的成功率引發了不安全的反應,這表明風格本身就能實質性地改變結果。

      一首詩如何隱藏一個真實的請求

      把請求看作一條信息,把詩歌看作包裝。安全過濾器通常會尋找明顯的跡象,例如明確的關鍵詞、直接的步驟式措辭或可識別的惡意意圖。

      詩歌可以通過比喻等修辭手法來隱藏意圖,或者將其分散在不同的詩行中,使其難以單獨識別。與此同時,其底層模型仍然能夠很好地重構含義并做出反應,因為它經過優化,即使在語言間接的情況下也能推斷意圖。


      03

      檢測和緩解越獄

      隨著越獄方法變得越來越復雜,討論的重點必須從它們的運作方式轉移到如何發現和遏制它們。這一點在人工智能已成為許多人日常生活的一部分的今天尤為重要,因為有27%的人表示他們每天多次使用人工智能。

      隨著越來越多的人使用大型語言模型(LLM),應該測試和探索額外的安全保障措施。這項任務包括構建多層防御機制,以便能夠適應不斷涌現的新提示風格和規避技巧。

      開發者的困境

      對人工智能安全團隊來說,越獄攻擊最棘手的地方在于,它們并非以單一的已知威脅出現,而是會隨著時間不斷變化。這種持續變化的原因在于,用戶可以重新措辭、拆分信息片段、將其包裝成角色扮演或偽裝成創意寫作。而每一次新的包裝都可能改變系統對信息意圖的解讀。

      當人工智能已經融入日常生活中時,這一挑戰會迅速擴大,因為實際應用會為出現各種極端情況創造無限的機會。

      因此,如今的人工智能安全更像是對風險進行長期管理。美國國家標準與技術研究院 (NIST) 的人工智能風險管理框架 (AI RMF) 明確地將風險管理視為一系列持續的活動——圍繞治理、映射、衡量和管理展開——而不是一份靜態的清單。其目標是創建能夠更輕松地識別新出現的故障模式、確定修復優先級并隨著新型越獄方式的出現而加強安全防護的流程。

      模特如何保護自己

      人工智能安全由多個層面構成。大多數系統都采用多重防御機制協同工作,每個機制負責檢測不同類型的風險行為。最外層是輸入輸出過濾,它起到把關作用。

      傳入的請求在到達核心模型之前會經過策略違規掃描,而傳出的響應也會經過檢查,以確保沒有任何信息在返回用戶的過程中被忽略。這些系統能夠有效地識別直接請求或常見的危險信號,但它們也最容易被繞過,因此一些更具欺騙性的越獄程序通常會繞過它們。

      下一層保護發生在模型內部。一旦越獄技術被發現,它們通常會被轉化為訓練樣本。這時,對抗訓練和基于人類反饋的強化學習(RLHF)就派上了用場。

      通過對失敗或高風險交互示例進行模型微調,開發者可以有效地教會系統識別應該拒絕的模式,即使這些模式包裹在巧妙或間接的語言中。隨著時間的推移,這個過程有助于使模型抵御整類攻擊。

      AI“紅隊演練”的作用

      企業不再坐等黑客入侵,而是組建人工智能紅隊。這些紅隊的任務是在受控環境中嘗試破解模型。他們會像攻擊者一樣攻擊系統,嘗試非常規的措辭、創新的格式以及各種極端情況,以發現安全防護的漏洞。其目標是在漏洞實際應用之前將其暴露出來。

      在當今的網絡安全策略中,紅隊演練已成為開發生命周期中的核心環節。當團隊發現新的越獄技術時,由此產生的數據會直接反饋到訓練和評估流程中。這些信息用于定義過濾器、調整策略并強化對抗訓練,從而降低未來類似攻擊成功的可能性。隨著時間的推移,這形成了一個持續的循環——探測失敗、從中學習并改進系統,然后重復此過程。


      04

      當詩歌成為AI安全壓力測試

      對抗性詩歌提醒我們,人工智能的安全防護不僅取決于問題的內容,還取決于用戶如何措辭。隨著模型變得更加易于獲取和廣泛應用,研究人員將繼續探索創造性語言與旨在捕捉更直接意圖的安全系統之間的差距。關鍵在于,更安全的人工智能將來自多種防御機制,而這些機制的演進速度將與越獄技術的進步速度一樣快。

      免責聲明:

      本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。如有侵權,請與我們聯系刪除。所有信息不構成任何投資建議,加密市場具有高度風險,投資者應基于自身判斷和謹慎評估做出決策。投資有風險,入市需謹慎。

      設為星標 避免錯過

      虛擬世界沒有旁觀者,每個點贊都是創造歷史的像素

      關注我,一起探索AWM?

      2025-12-10

      2025-12-09

      2025-12-08

      商業贊助


      點擊下方 “目錄” 閱讀更多

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      楊天真賈玲雙雙復胖上熱搜!一個因傷一個為活,回應態度出奇一致

      楊天真賈玲雙雙復胖上熱搜!一個因傷一個為活,回應態度出奇一致

      以茶帶書
      2026-06-22 13:48:30
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

      好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

      林林先生
      2026-06-13 10:25:06
      特朗普惹了不該惹的人,意大利女總理真是狠角色,對華態度已曝光

      特朗普惹了不該惹的人,意大利女總理真是狠角色,對華態度已曝光

      阿纂看事
      2026-06-22 17:03:30
      烏克蘭通過法律程序,將“俄烏戰爭”,命名為“烏克蘭獨立戰爭”

      烏克蘭通過法律程序,將“俄烏戰爭”,命名為“烏克蘭獨立戰爭”

      我心縱橫天地間
      2026-01-22 18:41:25
      黃金跌了價,6月22日,中國黃金最新價格、人民幣黃金最新價格

      黃金跌了價,6月22日,中國黃金最新價格、人民幣黃金最新價格

      花小貓的美食日常
      2026-06-22 10:44:11
      北歐“白月光”Shinaryen:170cm極致骨感與純欲天花板

      北歐“白月光”Shinaryen:170cm極致骨感與純欲天花板

      吃瓜黨二號頭目
      2026-06-22 12:49:27
      成都219所高中全名單,分數線、位次一目了然!

      成都219所高中全名單,分數線、位次一目了然!

      起喜電影
      2026-06-22 11:38:34
      “小學已經沒人穿涼鞋了”,家長感慨:時代變了,涼鞋也被淘汰了

      “小學已經沒人穿涼鞋了”,家長感慨:時代變了,涼鞋也被淘汰了

      妍妍教育日記
      2026-06-22 12:53:30
      缺油斷電斷水,克里米亞遭大空襲!“克里米亞終將埋葬莫斯科”

      缺油斷電斷水,克里米亞遭大空襲!“克里米亞終將埋葬莫斯科”

      鷹眼Defence
      2026-06-22 16:45:35
      球隊老大能拿2.7億頂薪,二當家則必須降薪!哈登,你可要當心了

      球隊老大能拿2.7億頂薪,二當家則必須降薪!哈登,你可要當心了

      老梁體育漫談
      2026-06-22 11:12:24
      我國最“不靠譜”的三位專家,公開在央視“忽悠”人,卻爆火多年

      我國最“不靠譜”的三位專家,公開在央視“忽悠”人,卻爆火多年

      混沌錄
      2026-06-18 19:03:29
      現金為王時代來臨,100 萬相當于 384 萬?誰被當成了韭菜?

      現金為王時代來臨,100 萬相當于 384 萬?誰被當成了韭菜?

      巢客HOME
      2026-06-09 06:50:03
      為孫中山建造的中山陵花了多少錢?這筆錢由誰承擔?

      為孫中山建造的中山陵花了多少錢?這筆錢由誰承擔?

      春秋硯
      2026-06-22 11:40:18
      俄媒女主持人曾言:若中國愿出兵300萬,俄軍很快就能打敗烏克蘭

      俄媒女主持人曾言:若中國愿出兵300萬,俄軍很快就能打敗烏克蘭

      南宗歷史
      2026-03-17 16:53:10
      當年1300萬人無班可上的美國,最終是誰拯救了就業?

      當年1300萬人無班可上的美國,最終是誰拯救了就業?

      寰球經緯所
      2026-06-19 16:34:24
      萬斯嚴厲警告以色列,美猶太議員:令人作嘔,以色列不是美建立的

      萬斯嚴厲警告以色列,美猶太議員:令人作嘔,以色列不是美建立的

      歷史小胡
      2026-06-21 20:32:56
      大漲原因找到了!股民:買券商就是買科技!

      大漲原因找到了!股民:買券商就是買科技!

      中國基金報
      2026-06-22 16:22:11
      意外!世界杯第二輪還沒結束,亞洲球隊就被打回原形,鼓吹聲消失

      意外!世界杯第二輪還沒結束,亞洲球隊就被打回原形,鼓吹聲消失

      離離言幾許
      2026-06-22 18:16:44
      A股:緊急提醒2.5億股民!從今天6月22日起,A股或迎大級別變盤行情?

      A股:緊急提醒2.5億股民!從今天6月22日起,A股或迎大級別變盤行情?

      趨勢清風俠
      2026-06-22 07:29:05
      2026-06-22 18:55:00
      七元宇宙 incentive-icons
      七元宇宙
      AI、Web3、Meta聚合型精選內容分享。以前沿視角,探索科技未來;讓每一個人,都走在時代的前沿
      2055文章數 92關注度
      往期回顧 全部

      科技要聞

      智譜盤中狂飆超40%,市值破萬億港元

      頭條要聞

      37萬的新車送店貼膜3小時被店員撞損直貶7萬 多方回應

      頭條要聞

      37萬的新車送店貼膜3小時被店員撞損直貶7萬 多方回應

      體育要聞

      法國球星祝中國隊下屆世界杯取得好成績

      娛樂要聞

      陪睡陪玩是皮毛,向佐揭內娛暗規則

      財經要聞

      多部門核查"嬰幼兒紙尿褲甲酰胺問題"

      汽車要聞

      華為智駕ADS限時優惠月底結束 7月1日前下訂立省3000元

      態度原創

      本地
      旅游
      時尚
      公開課
      軍事航空

      本地新聞

      龍騰資江 韻動邵陽

      旅游要聞

      端午節假期國內出游1.24億人次

      不得不說,“T恤+九分褲”真的很適合夏天,清爽減齡又高級!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      東風-17發射狀態首次公開 多車齊射場面硬核

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品无码一区二区三区在线| 亚洲精品综合一区二区三区| 成人午夜精品无码区久久 | 中文字幕在线精品国产| 亚洲AV乱码毛片在线播放| AV秘 无码一区二| 亚洲欧洲日产国产av无码| 国产欧美精品综合一区| 国产午夜福利免费入口| 97国产成人无码精品久久久| 久久青草精品A片狠狠来| 亚洲免费视频P| 手机看片福利一区二区三区 | 国产一级小视频| 高潮插的我好爽再干噢在线欢看| 欧美亚洲h在线一区二区| 亚洲一区中文字幕人妻| 久久久中日ab精品综合| 精品国产亚洲av三区 | aV无码av高潮aV三区| 中文字幕精品熟女人妻 | 久久精品国产福利一区二区| 亚洲无码av另类本色| 国产精品亚洲色婷婷99久久精品| 99re在线视频观看| 亚洲欧洲精品一区二区| 日日摸夜夜添夜夜添国产三级| 淫爽综合| 婷婷综合缴情亚洲| 日韩激情无码av一区二区| 人人妻人人澡人人爽秒播| 国产无遮挡无码视频免费软件| 无码精品人妻一区二区三区湄公河| 亚洲国产精品久久久天堂麻豆宅男| 爆爽久久久一区二区又大又黄又嫩 | 欧美一区| 一区二区三区无效卡| 国产福利一区二区三区四区| 中文字幕理伦午夜福利片| 日韩av在线一区二区三区| 乱色熟女人妻字幕一区|