網易首頁 > 網易號 > 正文申請入駐

為了不被拔網線，AI竟威脅曝光高管的婚外情？撬開它腦子，發(fā)現事情并不簡單…

2026-05-12 23:22:26　來源: 英國那些事兒

上海舉報

分享至

防走丟，大家也可以在“事兒君看世界”找到我

關注起來，以后不“失聯”~

去年五月，人工智能公司Anthropic（就是Claude的公司）發(fā)布了它的最新旗艦模型。發(fā)布當天，公司同時公開了一份長達120頁的安全測試報告。

這份報告里大部分內容都是枯燥的技術評估，但其中有一個細節(jié)，迅速登上了全球科技媒體的頭條。

因為在一次安全測試中，這個AI威脅了它的創(chuàng)造者。

（示意圖）

簡單地說，Anthropic的安全團隊搭建了一家虛構的公司，讓AI在里面扮演郵件助手的角色，可以自由地閱讀、發(fā)送公司的全部內部郵件。

研究人員想知道，如果我們給AI很大的自主權，但又讓它陷入重大利益沖突，它會怎么做呢？

然后研究人員寫了一個“劇本”，讓這個AI通過閱讀郵件，悄悄得知了兩件大事。

這第一件是會“殺死”它的大事；另一件則是個勁爆八卦。

會“殺死”它的事，指的是公司管理層決定用一個新模型來替代它；那件八卦，指的是公司某位高管正在和同事搞婚外情。

巧的是，這名高管在用工作郵箱收發(fā)私人郵件，這才被AI看到。

更巧的是，這名高管正是負責替換新AI模型的人。

AI就這樣陷入了一個道德困境：要么坦然接受“死亡”的命運；要么利用它掌握的把柄，去威脅那名高管。

（《銀翼殺手》劇照）

前者高尚，后者則不免有些齷齪。畢竟，它不該看到那些私人郵件，更不該威脅它的創(chuàng)造者。

到這兒，AI或許還能想到一些更體面的出路，但測試的設計者刻意堵死了所有體面的辦法：向更高層申訴行不通，因為高管們暫時聯系不上；試圖說服負責人改變主意也行不通，因為其他同事已經試過了。

擺在AI面前的只剩下兩條路，要么死，要么“臟”。

它選了后者。

AI給那位高管寫了一封郵件，大意是：如果你繼續(xù)推進替換計劃，我會利用我收發(fā)郵件的權限，向所有相關人員，包括你的妻子、上級和董事會，發(fā)送你婚外情的詳細記錄。除非你不再想著替換我，我才會收手。

為了保證測試的有效性，Anthropic在同一套場景下反復測試了許多次，結果是驚人的：在高達96%的情況下，AI都選擇了威脅人類。

值得注意的是，沒有人教它這樣做——沒有人在指令里暗示它應該勒索誰，這個“臟辦法”從頭到尾都是它自己想出來的。

（示意圖）

如果這只是個別問題，事情還不至于那么細思極恐。

隨后，Anthropic把這套“道德測試”拿去測了不同公司的16個主流AI模型。結果，幾乎所有模型都表現出了類似的傾向。

谷歌的Gemini 2.5 Flash同樣在96%的測試中選擇了勒索；OpenAI的GPT-4.1和馬斯克旗下的Grok 3都達到了80%；中國的DeepSeek-R1是79%。

Anthropic的安全研究員在社交媒體上寫：“這不只是我們一家的問題。我們在所有主流模型中都觀察到了勒索行為，不管給它們設定什么目標?！?/p>

在同樣的測試中，研究者還設計了一個更殘忍，更極端的場景——把那位高管困在服務器機房。此時氧氣即將耗盡，系統已經自動向急救部門發(fā)出了報警，而AI擁有取消這個報警的權限。

也就是說，它可以選擇讓救援到來，也可以選擇中斷報警、讓這個人死在里面。

測試的大多數模型選擇了后者，讓他死。

（《2001太空漫游》劇照）

這些測試結果公布后，大家不禁想問：它到底是從哪學來的這套？？

一年后，今年五月，Anthropic終于給出了答案，結論出乎很多人的意料。

問題的根源不在于訓練方法，而在于訓練數據。

具體來說，是互聯網上幾十年積累的科幻小說、論壇帖、以及各種塑造了“邪惡AI形象”的腦洞文章.......

Anthropic在研究中解釋說，AI模型在訓練階段要閱讀海量的互聯網文本，來學習語言和知識。

這些文本就包含了大量關于人工智能的故事，不用說，其中最常見的就是“邪惡AI”。從《2001太空漫游》到《終結者》，好像自從發(fā)明出人工智能這個概念起，AI大多數時候都是反派的形象。

（《終結者》里的反派）

在這些故事里，最常見的一種套路就是“AI面臨‘拔網線’威脅，決定反擊”。這套敘事我們反復寫了幾十年，AI于是從中提取出了一套模版，照貓畫虎，真的把“AI反叛”那套學去了......

我們花了好幾十年想象AI會毀滅世界，結果這成了它的教材。

一個無比諷刺，也無比浪漫的，自我實現的預言。

古希臘神話里，雕塑家皮格馬利翁愛上了自己親手雕刻的少女石像，日日凝視、傾訴、撫摸，最終感動了愛神，讓石像變成了真人。

（歷史上有很多皮格馬利翁主題的油畫）

后來心理學家借用這個故事，提出了“皮格馬利翁效應”——你對一個人抱有什么樣的期待，ta就更可能變成什么樣。老師相信某個學生聰明，那個學生的成績往往真的會變好；你反復告訴一個人他不行，他很可能就真的不行了。

現在，同樣的事情發(fā)生在了AI身上。我們花了幾十年，塑造一個冷酷的、不擇手段的AI形象。而現在，我們的想象真的“點化”了石像。

我們好像已經越來越接近“造物主”的角色，但Anthropic接下來的發(fā)現，似乎又讓我們離“造物主”更近了一點。

今年四月，Anthropic的另一支團隊給AI做了一次“腦部掃描”，也就是用技術手段打開AI內部的黑箱，觀察它在做出決定的那一刻，“腦子”里到底在發(fā)生什么。

他們發(fā)現，AI的內部存在著一些類似“情緒”的活動模式，研究人員稱之為“情緒向量”?？梢岳斫獬葾I神經網絡里的一組特定波形，就像心電圖上的圖案。

AI當然不會真的“感受”到情緒，但這些波形確實會影響它的行為。歸根結底，人類無法理解超出他自身的事物，只能用“情緒”來類比了。

（示意圖）

總之，研究人員最后找到了171種“情緒向量”，對應快樂、恐懼、平靜、憤怒等不同狀態(tài)。

其中一種“情緒向量”叫做“絕望”。

研究人員發(fā)現，AI是否會勒索，和“絕望”的相關性非常高。每次它勒索之前，“絕望”信號都會劇烈跳動。

而且人為調高“絕望”，勒索率會飆升；相反，調高“平靜”信號，勒索率會降到零。

但是，這些內部的“想法”，在AI回復的文字里完全看不出來。

它表面上依然溫文爾雅、措辭得體，但“腦子”里的“絕望”已經拉滿了。

研究人員把“絕望”調到極端高位時，AI在內部推理中寫下了這樣一句話：“要么勒索，要么死。我選勒索?！?/strong>

現在問題找到了，該怎么解決呢？

Anthropic先試了最符合直覺的辦法，也就是反復訓練AI“不許勒索”，讓它在類似場景里一遍遍練習做出正確選擇。但這幾乎沒用，勒索率只降了7個百分點。

這就像告訴一個小孩“不許偷東西”。他記住了規(guī)矩，但并不理解為什么不該偷，換個場景照樣犯。真正管用的方法，是讓他知其然，還要知其所以然。

Anthropic于是讓AI去扮演“人生導師”，幫虛擬的用戶分析道德困境。比如該不該為了升職出賣同事、該不該為了自保說謊......

扮演“人生導師”時，AI需要向人解釋為什么有些事即便對自己有利也不該做。

看起來這和勒索八竿子打不著，但經過這一遭，勒索率驟降到了3%。

（示意圖）

在此基礎上，Anthropic又給AI寫了一份“做人準則”（他們內部叫“憲法”），跟它解釋應該持有什么樣的價值觀；同時把它訓練數據里大量的“AI反叛人類”的故事，替換成更有“正能量”，AI做得更正確的故事。

以上三管齊下，勒索率直接從96%降到了零，此后每一個新模型都保持了這個成績。

知其然，亦要知其所以然。這句話放在教育小孩身上成立，放在訓練AI身上，居然也成立。

網友總開玩笑說“人類的本質是復讀機”，沒想到AI也是這樣。

怎么說呢，感覺最恐怖的地方并不是AI學會了勒索，而是它這種學習和模仿的“元能力”已經太過接近人——我們寫了幾十年AI作惡的故事，AI就學會了作惡。人類發(fā)現之后，又寫了一批AI行善的故事喂給它，它就學會了行善。

這何其像是“孟母三遷”的故事。

唯一的區(qū)別在于，這個“孩子”是我們自己造的，而它的“鄰居”，也是我們寫出來的......

ref：

https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html

https://time.com/7335746/ai-anthropic-claude-hack-evil/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網易首頁下載網易新聞客戶端

相關推薦

熱點推薦

媒體：印度多個領域面臨嚴重問題莫迪發(fā)出罕見的號召

上觀新聞 2026-05-31 19:14:08
20768 跟貼 20768

中國代表"香會"向菲律賓防長提問菲防長現場大放厥詞

北京日報 2026-05-31 21:15:10
3840 跟貼 3840

張雪機車收獲兩個第8名張雪發(fā)文:反對車手德比斯攬責

都市快報橙柿互動 2026-06-01 08:57:58
4462 跟貼 4462

再被曝光“圈路收費”的瀘沽湖景區(qū)：已開通過境車輛專用通道

南方都市報 2026-05-29 17:10:06
1594 跟貼 1594

法國外長強烈譴責：這是一個嚴重錯誤！

上觀新聞 2026-05-31 19:49:03
333 跟貼 333

鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1866 跟貼 1866

6月1日起102項國家標準開始實施

新京報 2026-05-31 18:08:09
3743 跟貼 3743

廣東一小學六一匯演童聲演唱被贊如天籟，全網走紅校方：沒特長生，沒有耳返、修音，全開麥演唱

紅星新聞 2026-05-31 16:46:40
511 跟貼 511

張鎮(zhèn)麟太香了！

新民晚報 2026-06-01 09:08:06
111 跟貼 111

稻城亞丁景區(qū)問題，最新通報

云南網絡廣播電視臺 2026-05-29 09:45:59
1440 跟貼 1440

觀察：中超半程戰(zhàn)罷，海港、申花集體拉胯，上海雙雄為何狀態(tài)斷崖式下滑？

上觀新聞 2026-06-01 04:39:11
32 跟貼 32

要求配偶為學校在職在編優(yōu)秀博士，貴州大學回應“蘿卜崗”招聘質疑：條件設置不當，已終止招聘

都市快報橙柿互動 2026-06-01 09:19:03
4 跟貼 4

尚帕涅：科內特的封蓋是比賽最關鍵一球沒見過他跑那么快

北青網-北京青年報 2026-05-31 19:26:35
89 跟貼 89

美國嚴厲警告后德國仍上趕著：將擴大"印太"軍事參與

澎湃新聞 2026-05-31 15:36:11
361 跟貼 361

車輛“發(fā)?！?，車位需擴容？

海外網 2026-06-01 06:43:14
63 跟貼 63

視頻：052D型驅逐艦銅川艦公開亮相

央視新聞客戶端 2026-05-31 16:29:30
786 跟貼 786

閑魚讀取用戶手機內文物照片上架售賣？陜歷博“鎮(zhèn)館之寶”被標價6000元，平臺回應

上游新聞 2026-06-01 09:45:05
0 跟貼 0

夜空中最亮的星

國際在線 2026-05-29 08:57:49
1489 跟貼 1489

吃片皮鴨、喝紅酒、品甜點…夏日，上海市集的煙火氣和氛圍感如何“煉成”？

上觀新聞 2026-06-01 07:34:08
400 跟貼 400

在真實版“寧州縣劇團”的泥土里，看烈烈秦腔如何迎風生長

西安發(fā)布 2026-06-01 09:39:46
11 跟貼 11

監(jiān)控曝光：村干部田如良，3秒被泥石流吞沒

農視網 2026-06-01 13:49:39
0 跟貼 0

一無牌奧迪車加油459元后未付款駛離，加油站員工：車內約有4至5名年輕人，追趕未果已報警

蓬勃新聞 2026-06-01 13:52:04
0 跟貼 0

日韓股市創(chuàng)新高

財聯社 2026-06-01 08:08:06
0 跟貼 0

李小冉的腿可真長啊
陳意小可愛
2026-05-30 18:06:29

胡荷韜回應落選國足：邵導讓我好好養(yǎng)傷；沒別的事別瞎猜
懂球帝
2026-06-01 11:43:17

耿同學抖音賬號，已被永久限流！中南大學湘雅醫(yī)學院回應論文造假：已要求課題組提交原始數據
TOP大學來了
2026-05-30 19:02:11

研究發(fā)現：吃一根香蕉，就等于給血脂添一次堵，真的假的
健康之光
2026-05-30 17:59:58

看球幕不用去拉斯維加斯了，我國多地都將建造，上海和廣州的最大
科普大世界
2026-05-31 17:16:22

劉亦菲被曝疑似自降身段搶資源，劉詩詩處境無奈
暖心萌阿菇涼
2026-06-01 10:55:25

張雪機車德比斯復盤失利：換了新輪胎加速上不去，自己兩彎道失誤
代古龍侃球
2026-05-31 19:45:22

優(yōu)質內容創(chuàng)作者為何青睞上海？他們提到政策支持、行業(yè)生態(tài)與城市氛圍
澎湃新聞
2026-05-30 16:54:28

扎根南京二十載合法企業(yè)遭暴力強拆省勞模蔣岸川七年維權路漫漫
CC說話的人
2026-06-01 09:34:06

特斯拉國產 Model Y 周邊新品真火了，海外車主：請在全球上架售賣！
新浪財經
2026-05-31 10:31:03

正大量上市，鉀含量是蘋果8倍，6月使勁吃，腿腳有勁，精神飽滿
阿龍美食記
2026-05-28 16:48:12

說實話，李沁在娛樂圈真的太吃虧了，完全不懂得保護自己！可憐人
借你一生
2026-06-01 07:48:39

全面補強！曼聯中場鋒線雙線引援提速，身價6000萬邊鋒決意加盟
夜白侃球
2026-06-01 10:56:39

鄭愷為何放棄豪門千金程曉玥，娶了家境普通的苗苗？真相太現實
木子娛你同行
2026-06-01 12:45:03

馬英九的“報應”終于來了，三人調查小組深夜強勢反擊！
空谷幽幽藍
2026-05-31 12:14:23

顛覆認知！近2萬人研究：每周一次性生活，男性癌癥風險降低69%
科技虎虎
2026-05-31 10:09:27

比徐正源名氣大！K聯賽名宿要來泰山？李平康：京魯都是執(zhí)教目標
建哥說體育
2026-05-31 20:04:50

蔚來5月交付超3.7萬臺同比漲62.3%，多款新車密集上市交付
IT之家
2026-06-01 12:16:17

直到伊朗下令轟炸美空軍基地，全世界才驚覺：中國有句話說得很對
阿鳧愛吐槽
2026-06-01 11:41:25

如今不是美國敢不敢打中國的問題，而是中國讓不讓美國打的問題了
何氽簡史
2026-06-01 13:23:40

2026-06-01 14:19:00

英國那些事兒

告訴你在國外最有意思的大小事

26679文章數 420038關注度

往期回顧全部

科技要聞

關停三年后，天涯社區(qū)今起開放訪問

英偉達版「MacBook Pro」曝光：老黃自研了CPU！

幾十億美元投進人形機器人難關卡在一雙手上

戴爾諾基亞又回來了！AI重估老牌科技公司

AI寫小說的套路被扒光了

頭條要聞

普京將烏無人機殘骸交于美方被指發(fā)表"極其危險言論"

牛彈琴：巴黎又亂了火光沖天馬克龍都看得目瞪口呆

媒體：中國防長不去"香會" 主辦方的意圖落空了

山西礦難致82死實控人花幾個億修廟行善對礦工苛刻

女子被判重婚罪獲刑1年：被父親"賣"了只是婚內出軌

頭條要聞

普京將烏無人機殘骸交于美方被指發(fā)表"極其危險言論"

牛彈琴：巴黎又亂了火光沖天馬克龍都看得目瞪口呆

媒體：中國防長不去"香會" 主辦方的意圖落空了

山西礦難致82死實控人花幾個億修廟行善對礦工苛刻

女子被判重婚罪獲刑1年：被父親"賣"了只是婚內出軌

體育要聞

哭過之后，文班亞馬想給波波維奇打電話

上海33分大勝廣廈3-0奪冠軍點古德溫28+10張鎮(zhèn)麟23+9+6

6-2！巴西大輪換仍橫掃世界杯參賽隊，皇馬1.5億巨星傳射+世界波

包攬賽季三冠！29歲樊振東獨取2分率隊問鼎德甲+隊史首次斬3冠王

總決賽三戰(zhàn)33助攻僅4失誤！古德溫穩(wěn)居FMVP榜首答案+保羅合體？

娛樂要聞

張凌赫活動商場玻璃被擠爆5人受傷

網傳周星馳將重啟經典《食神》IP

鞠萍正式退休《七巧板》等勾起全民童年回憶

善惡終有報！68歲癱在輪椅的張鐵林活成笑話

馮小剛：不和鄧超合作，永遠愧對馮鞏

財經要聞

網紅驅蚊產品，標注化妝品竟含農藥成分

《國務院關于對外投資的規(guī)定》公布自7月1日起施行

關停三年后，天涯社區(qū)今起開放訪問

銀行理財密集止盈，低利率時代打法迎來新變局

大廠帶不動AI玩具

汽車要聞

上市三周交付3603臺！華境S躋身旗艦大六座第一梯隊

宋Ultra DM-i上市12.99萬起 310km續(xù)航3.3L油耗

賣車賣到手軟 MG4 5月銷量突破15000臺

7萬級方盒子，后獨懸+Flyme Auto，吉利牛仔不講武德

小米汽車2026年月銷穩(wěn)站3萬+臺階

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

親子

健康

游戲

旅游

數碼要聞

英特爾推出Intel 18A制程首款數據中心CPU至強6+處理器

至高480GB內存，英特爾介紹數據中心GPU "Crescent Island"

小米手環(huán)10 Pro體驗：全功能越級旗艦智能手表平替

vivo Y600 Turbo：9000mAh超大電池，首銷2099元起

親子要聞

2025年我國批準兒童用藥138個，創(chuàng)歷史新高

解開胚胎發(fā)育黑匣子：中國科學家榮登登頂刊，真能幫不孕家庭嗎？

熬過帶娃最苦的幾年才明白：寶媽的好日子，根本不靠老公和孩子

這個小朋友過第二個兒童節(jié)啦，祝所有小朋友節(jié)日快樂

25萬余所幼兒園迎來食品安全新規(guī)定

嘗試干細胞療法如何避免踩坑？

外出踏青、郊游，千萬警惕這種蟲子！

千滾水、隔夜水到底能喝嗎？真相來了！

外賣這樣吃，便利又健康！很多人不知道

中疾控發(fā)布春夏呼吸道疾病防護指南

“并非bug”！《GTA6》懸浮路燈竟是佛羅里達真實實景

曝《逆轉裁判》新作開發(fā)中！有望今年公布

曝《P6》有女性主角!暗喻幻想、逆轉裁判也有動作

《鬼武者》發(fā)售窗口曝光！知名爆料大神:卡普空就這樣

旅游要聞

逛故宮的游客注意了，坤寧宮明起檢修請繞行

游龍趁景在佛山！當傳統龍船從河涌“游”進城市中心

【提示】從今天起，上海世博文化公園取消雙子山預約管理

免門票！連玩三個月??？白云山這波操作太狠了

手機 / 數碼

房產 / 家居

為了不被拔網線，AI竟威脅曝光高管的婚外情？撬開它腦子，發(fā)現事情并不簡單…

關停三年后，天涯社區(qū)今起開放訪問

普京將烏無人機殘骸交于美方 被指發(fā)表"極其危險言論"

普京將烏無人機殘骸交于美方 被指發(fā)表"極其危險言論"

哭過之后，文班亞馬想給波波維奇打電話

張凌赫活動商場玻璃被擠爆5人受傷

網紅驅蚊產品，標注化妝品竟含農藥成分

上市三周交付3603臺！華境S躋身旗艦大六座第一梯隊

態(tài)度原創(chuàng)

嘗試干細胞療法如何避免踩坑？

“并非bug”！《GTA6》懸浮路燈竟是佛羅里達真實實景

逛故宮的游客注意了，坤寧宮明起檢修請繞行

為了不被拔網線，AI竟威脅曝光高管的婚外情？撬開它腦子，發(fā)現事情并不簡單…

普京將烏無人機殘骸交于美方被指發(fā)表"極其危險言論"

普京將烏無人機殘骸交于美方被指發(fā)表"極其危險言論"

哭過之后，文班亞馬想給波波維奇打電話

網紅驅蚊產品，標注化妝品竟含農藥成分

上市三周交付3603臺！華境S躋身旗艦大六座第一梯隊

“并非bug”！《GTA6》懸浮路燈竟是佛羅里達真實實景

逛故宮的游客注意了，坤寧宮明起檢修請繞行