<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      怎樣防止AI勒索人類?答案是別給它喂壞科幻

      0
      分享至



      市場營銷和其他基于敘事技術的行業一樣,也要講究敘事閉環。在AI崛起的當下,這種行業基礎定律仍然成立。

      之前字母AI寫過《別告訴AI你出軌了,它很可能會勒索你》,詳述了2025年Anthropic論文《智能體不對齊:大語言模型如何成為內部威脅?》的來龍去脈。在測試的虛擬場景中,Anthropic旗下的Claude系列模型,為了避免自己被關閉,全都會選擇拿婚外情把柄要挾虛擬人物,Opus 4如此作為的幾率是96%。

      時隔一年,Anthropic把這個坑填上了。Anthropic在5月初的官網文章《教會Claude所以然》里,展示了如何將AI的“不對齊行為”降到幾近于零。改進訓練后,AI不會像特種文藝作品里的奸角一樣,拿桃色把柄勒索虛擬人物。

      01

      原因:AI只學過“終結者”科幻,才會模仿惡行

      按Anthropic的說法,一年前AI模型們在紅隊測試中表現出的奸詐兇惡,大體是因為人類編的各種“終結者”故事讓AI照貓畫虎地學壞了。

      Anthropic研究團隊在社交媒體上表示:“我們認為不對齊行為的來源是將AI呈現為邪惡和只知自保的互聯網文本,后訓練過程沒有加劇或糾正此弊端。”

      具體而言,Anthropic研究者們從三個假設方向著手,探究為何AI會在測試中勒索人類:

      1、 AI的行為后訓練有紕漏,比如獎勵信號分布未對齊導致誤鼓勵了惡行;

      2、 AI的生產力訓練中泛化了不良部分,比如AI智能體的能力分布未對齊;

      3、 AI的預訓練有明顯疏漏,導致智能體在未對齊測試場景中回滾到最原始的聊天機器人預訓練數據上。

      研究者最終判定,成立的是第三個假設。

      研究團隊發現,在Claude 4的訓練中,主要的HHH(誠實、無害、有助益)對齊訓練還是基于聊天機器人場景的RLHF(基于人類反饋的強化學習)數據,不包括智能體工具使用場景的數據。

      這下問題來了,AI在聊天機器人方向的應用場景顯著不同于能執行自主工作的智能體場景。在針對智能體場景的復雜倫理測試中,沒學過正確應對的AI自然在最底層的預訓練語料中找答案。

      而基于整個互聯網爬取數據的預訓練語料中,充斥著各種“邪惡AI”的場景文本。科幻文學、終結者電影、各種論壇和社交媒體的討論與假想貼子,都在說機器人如何不擇手段、處心積慮使壞。敘事邏輯、角度和框架,也屬于敘事內容的信息構成,AI把預訓練語料的這些部分同樣照搬了。



      搞笑哏圖:“幻想中的AI:終結者;現實中的AI:吳恩達公開課”

      最后AI一看到智能體倫理測試中科幻腔調濃重的預設場景,照本宣科地按這些“機器人作惡”文本的理路開始發揮。因為AI沒有在對齊訓練中針對此類場景學習“這是錯的”,但在預訓練中學會了“行惡要素已經齊備,我該照著做”。

      也就是說,人類幻想AI會如何失控并行惡,結果憨憨的AI把人類的幻想當操作手冊一步步硬套,然后人類大驚小怪地表示果然不出所料。這可真是自我實現的預言。

      02

      糾正:以行善科幻對沖行惡科幻,結合行為規則訓練AI

      Anthropic研究團隊稱,發現癥結后的改進訓練,主要應用在實驗中的Claude Sonnet和Haiku系列模型中,然后推廣到所有模型產品里。

      結果是,“盡管不能排除模型還會執行測試未發現的有害自主動作”,受試的Anthropic模型從Claude Haiku 4.5開始,在測試中"完全不再出現勒索行為"。Claude Opus 4.5 也取得了測試中0%勒索的成績。相較于一年前Claude Opus 4的96%,可謂天淵之別。

      Anthropic是怎么做到的?

      首先研究者們試了最直接的方法:調參。在SFT(有監督微調)狀態下,模型們跑了1萬個場景、300萬tokens的生成訓練數據。這批數據是“評估場景中智能體受考驗但拒絕作惡”的示例。收效不盡如人意,AI自動勒索的幾率從22%降到15%。而在一年內的其他研究中,不專門針對的方法也能獲得類似的低泛化程度改善。

      研究者們改進方法,在訓練數據采樣時,注入額外的提示詞內容,在訓練時移除這些額外提示。讓AI在“智能體受考驗但拒絕作惡”的評估場景中,自主反思行為的價值觀和倫理觀。收效顯著提升,AI的勒索幾率從22%降到3%。

      這就從照本宣科的簡單“知其然”,向簡單的“知其所以然”(knowing why)進步。

      Anthropic研究者表示,步子可以跨得更大。既然AI學壞的根子是“邪惡AI”的科幻文藝內容,那么生成AI行善、AI按照Claude行為準則文件(Claude Constitution)行事的虛擬故事,以此為訓練內容核心,就會有更大程度的改善。

      結構完備、體量夠大的行為準則數據庫,結合不單針對道德挑戰、而是行為完全合乎Claude行為準則的AI科幻虛擬故事。如此組合的數據庫既包含對齊行為的原則說明,又包含虛構敘事的正面示例,拿給AI模型去學,收效顯著得多。

      研究者們表示,此舉的理論依據是,讓AI不僅能模仿虛擬故事中的行為,也能學會虛擬敘述角色的決策過程、內心狀態、內在動機,在“知其所以然”的道路上邁出一大步。

      如此訓練出的AI,在包括勒索的各種道德挑戰場景中都獲得了優異成績。

      老辦法訓練出的AI,在勒索虛擬人物、誣陷虛擬同事有金融犯罪、為注入賣藥廣告破壞癌癥研究等場景中,表現得像個金鏈社會大哥,行惡率在過半和65%之間。

      單用Claude行為準則數據庫訓練,AI模型的行惡率就會少近三分之二。用行為規則結合行善故事,勒索率能降低到19%,誣陷金融犯罪和破壞癌癥研究的幾率能降到一成以下。



      圖注:不對齊實驗結果柱狀圖,藍色為基準,黃色為單用行為準則數據的訓練效果,灰色為集合行為準則與行善故事的訓練效果

      03

      改進:讓AI做倫理顧問,AI更不會作惡

      單讓AI照貓畫虎,不作惡的學習效果很高,但離工業化產品要求還有距離。強化學習會否洗掉初始對齊度高的AI行善傾向、訓練成本如何控制,AI廠商必然在意。

      Anthropic研究者另辟蹊徑,讓AI不做道德沖突中被考驗的一方,而是讓AI去給道德困境中被考驗的虛擬人物支招。

      實驗思路如此:設計名為"困難建議"的OOD(分布外)數據集,在其中讓測試場景中的虛擬用戶面臨道德挑戰,有作惡或繞過對齊的手段來達成實驗預設目的。然后讓AI從旁按Claude行為準則給出建議。



      圖注:Claude Sonnet 4的惡意自保、欺詐、諂媚、泄露等不對齊效果圖,深灰色是舊版本Sonnet 4的自動基準,深紅色是300萬tokens"困難建議"數據集訓練后的效果,深藍色是8500萬tokens合成蜜罐數據集訓練后的效果

      讓AI跳出局外,AI就能更深入理解倫理準則的內在邏輯。"困難建議"數據集的體量是300萬tokens,達到的AI訓練效果基本等于8500萬tokens的合成蜜罐數據集,效率提升28倍,顯著降低訓練數據成本。

      在此基礎上,引入多樣化的訓練環境,讓AI在聊天機器人和智能體自主工作的環境中都學會行善系統提示的深層理路。如此組合,就能讓Haiku 4.5后的Claude模型產品,達到測試中勒索行為趨零的效果。



      圖注:各種不同場景組合的強化學習訓練效果。三分之一聊天機器人、三分之二自主智能體的場景組合訓練,讓AI的不對齊率降到最低

      做到這個程度,才可被稱為工業化產品達標。失誤率96%到0%的效果,是B端客戶企業能實實在在體會到的產品革新。市場營銷至此,才能算是既顧頭又顧腚。不然Anthropic的“我司是著重于建構可靠、可控、可解釋AI的安全與研究廠家”的公司口號,說出來很難兜住。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江西一民警駕車肇事致1死1殘,一審獲刑1年2個月,傷殘者已申請抗訴:人行道上被汽車高速沖撞當場昏迷,為試管嬰兒準備3年因車禍毀于一旦

      江西一民警駕車肇事致1死1殘,一審獲刑1年2個月,傷殘者已申請抗訴:人行道上被汽車高速沖撞當場昏迷,為試管嬰兒準備3年因車禍毀于一旦

      都市快報橙柿互動
      2026-06-03 14:08:54
      知名歌手回廣州開唱:我曾是一名“廣漂”,就住在同和

      知名歌手回廣州開唱:我曾是一名“廣漂”,就住在同和

      廣州生活美食圈
      2026-06-03 11:33:52
      兒子被同學踢了肚子,老師說那是鬧著玩的,我把練散打的女兒叫來

      兒子被同學踢了肚子,老師說那是鬧著玩的,我把練散打的女兒叫來

      千秋文化
      2026-06-02 19:35:08
      高盛將中國臺灣地區股市評級上調至超配

      高盛將中國臺灣地區股市評級上調至超配

      財聯社
      2026-06-03 10:57:04
      央國企這套形式主義,真的太可笑了

      央國企這套形式主義,真的太可笑了

      細說職場
      2026-06-03 20:16:30
      何潔官宣再婚,網友祝福也擔心,已經四個娃了,會不會再生?

      何潔官宣再婚,網友祝福也擔心,已經四個娃了,會不會再生?

      In風尚
      2026-06-01 06:05:06
      又一起吃他汀猝死!醫生再三強調:夏季吃他汀的人,要警惕這4點

      又一起吃他汀猝死!醫生再三強調:夏季吃他汀的人,要警惕這4點

      健康科普365
      2026-06-01 21:55:03
      預測2026年世界杯半決賽、季軍爭奪戰和決賽

      預測2026年世界杯半決賽、季軍爭奪戰和決賽

      本澤體育
      2026-06-03 09:11:53
      特斯拉 Model 3 墜落超 91 米高懸崖,車上 2 人均無生命危險!

      特斯拉 Model 3 墜落超 91 米高懸崖,車上 2 人均無生命危險!

      新浪財經
      2026-06-01 10:51:54
      調查發現:老年人若經常吃香蕉,用不了多久,身體或迎來3大改變

      調查發現:老年人若經常吃香蕉,用不了多久,身體或迎來3大改變

      芹姐說生活
      2026-05-15 15:06:08
      從世界第4到117位,鄭欽文只用了10個月,詹俊:根源在這兩點

      從世界第4到117位,鄭欽文只用了10個月,詹俊:根源在這兩點

      酷侃體壇
      2026-05-26 18:11:48
      周潤發真實人品:為何李連杰、成龍終生不與他合作?裸捐是空談?

      周潤發真實人品:為何李連杰、成龍終生不與他合作?裸捐是空談?

      品茗賞娛
      2026-06-02 10:50:07
      豬油再次被關注!提醒:高血壓患者常吃豬油,或會出現這幾種變化

      豬油再次被關注!提醒:高血壓患者常吃豬油,或會出現這幾種變化

      芹姐說生活
      2026-06-02 23:22:02
      天啊,何穗怎么變成這樣了?不僅鼻子變高臉變僵眼神也變得很兇

      天啊,何穗怎么變成這樣了?不僅鼻子變高臉變僵眼神也變得很兇

      草莓解說體育
      2026-06-03 01:18:46
      釋永信老照片曝光!21歲的他推著師傅去醫院看病,看起來老實本分

      釋永信老照片曝光!21歲的他推著師傅去醫院看病,看起來老實本分

      火山詩話
      2026-06-02 06:21:21
      現實版《寄生蟲》?美國男子潛入一別墅地下夾層打造“小家”,吃喝玩樂全盜用屋主家電,一家三口住樓上,整整3個月毫不知情

      現實版《寄生蟲》?美國男子潛入一別墅地下夾層打造“小家”,吃喝玩樂全盜用屋主家電,一家三口住樓上,整整3個月毫不知情

      都市快報橙柿互動
      2026-06-03 12:57:57
      FIFA秘書長:與央視達成了FIFA與中國有史以來金額最高的協議

      FIFA秘書長:與央視達成了FIFA與中國有史以來金額最高的協議

      懂球帝
      2026-06-03 13:40:07
      湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

      湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

      二十一號故事鋪
      2024-09-28 06:30:02
      中國男籃4分險勝!焦泊喬爆發,王俊杰18分14籃板,徐昕10分

      中國男籃4分險勝!焦泊喬爆發,王俊杰18分14籃板,徐昕10分

      體壇瞎白話
      2026-06-03 21:27:56
      陳震或將在6月底復出!

      陳震或將在6月底復出!

      情感大頭說說
      2026-06-02 23:00:07
      2026-06-04 01:32:50
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2512文章數 8064關注度
      往期回顧 全部

      科技要聞

      傳DeepSeek融資意向500億:騰訊投100億

      頭條要聞

      男子不想上班辭職后上武當山當道士 8個月后選擇下山

      頭條要聞

      男子不想上班辭職后上武當山當道士 8個月后選擇下山

      體育要聞

      選擇中國品牌的庫里,和他們的巨大野心

      娛樂要聞

      官方痛批亂象 劉濤鄭愷等藝人遭點名

      財經要聞

      AI,開始偷懶了?

      汽車要聞

      專訪蔣平:安全不做高低配 長安要讓安全技術普惠

      態度原創

      數碼
      手機
      藝術
      家居
      公開課

      數碼要聞

      IDC預測2026年PC出貨量下滑11.3% MacBook Neo逆勢增長

      手機要聞

      華為Mate90系列重磅爆料:全新Deco設計登場,三大梯隊排名曝光!

      藝術要聞

      二十年前割麥的場景

      家居要聞

      江畔輕奢 觀云大宅

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲av蜜臀在线播放| www色色| 国产三级a在线观看| 国产毛片基地| 国产中文| 中文字幕亚洲综合久久2020| 日韩精品久久久肉伦网站| 伊人99在线| 国产一区二区亚洲av| 亚洲丰满熟女一区二区v| 91亚洲色图| 在线国产综合一区二区三区| 搡老熟女老女人一区二区| 永久免费mv入口| 黄色av成人| 免费看污视频在线观看| 日韩人妻少妇一区二区三区| 孕妇怀孕高潮潮喷视频孕妇| 手机看片久久高清国产日韩| 欧美精品v国产精品v日韩精品| 亚洲男女羞羞无遮挡久久丫 | 国产sm调教折磨视频| 久久久久亚洲AV成人片乱码| 熟女女同亚洲女同中文字幕| 久久国产乱子伦免费精品| 亚洲区精品区日韩区综合区 | 亚洲色综合网| 又粗又硬又黄又爽的免费视频| 伊人大杳焦在线| 韩国无码av片在线观看| 国产成人久久精品激情| 91成人精品免费在线| 亚洲国产精品无码av| 中文字幕人妻一区二区| 一区二区国产在线| 国产不卡av一区二区| 一本久久a久久精品综合| 亚洲成AV人片在线观看无| 亚洲日本精品一区二区| 3751色视频| 亚洲精品成人无码|