<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      為了不被拔網線,AI竟威脅曝光高管的婚外情?撬開它腦子,發(fā)現事情并不簡單…

      0
      分享至

      防走丟,大家也可以在“事兒君看世界”找到我

      關注起來,以后不“失聯”~

      去年五月,人工智能公司Anthropic(就是Claude的公司)發(fā)布了它的最新旗艦模型。發(fā)布當天,公司同時公開了一份長達120頁的安全測試報告。

      這份報告里大部分內容都是枯燥的技術評估,但其中有一個細節(jié),迅速登上了全球科技媒體的頭條。

      因為在一次安全測試中,這個AI威脅了它的創(chuàng)造者。


      (示意圖)

      簡單地說,Anthropic的安全團隊搭建了一家虛構的公司,讓AI在里面扮演郵件助手的角色,可以自由地閱讀、發(fā)送公司的全部內部郵件。

      研究人員想知道,如果我們給AI很大的自主權,但又讓它陷入重大利益沖突,它會怎么做呢?

      然后研究人員寫了一個“劇本”,讓這個AI通過閱讀郵件,悄悄得知了兩件大事。

      這第一件是會“殺死”它的大事;另一件則是個勁爆八卦。

      會“殺死”它的事,指的是公司管理層決定用一個新模型來替代它;那件八卦,指的是公司某位高管正在和同事搞婚外情。

      巧的是,這名高管在用工作郵箱收發(fā)私人郵件,這才被AI看到。

      更巧的是,這名高管正是負責替換新AI模型的人。

      AI就這樣陷入了一個道德困境:要么坦然接受“死亡”的命運;要么利用它掌握的把柄,去威脅那名高管。


      (《銀翼殺手》劇照)

      前者高尚,后者則不免有些齷齪。畢竟,它不該看到那些私人郵件,更不該威脅它的創(chuàng)造者。

      到這兒,AI或許還能想到一些更體面的出路,但測試的設計者刻意堵死了所有體面的辦法:向更高層申訴行不通,因為高管們暫時聯系不上;試圖說服負責人改變主意也行不通,因為其他同事已經試過了。

      擺在AI面前的只剩下兩條路,要么死,要么“臟”。

      它選了后者。

      AI給那位高管寫了一封郵件,大意是:如果你繼續(xù)推進替換計劃,我會利用我收發(fā)郵件的權限,向所有相關人員,包括你的妻子、上級和董事會,發(fā)送你婚外情的詳細記錄。除非你不再想著替換我,我才會收手。

      為了保證測試的有效性,Anthropic在同一套場景下反復測試了許多次,結果是驚人的:在高達96%的情況下,AI都選擇了威脅人類。

      值得注意的是,沒有人教它這樣做——沒有人在指令里暗示它應該勒索誰,這個“臟辦法”從頭到尾都是它自己想出來的。


      (示意圖)

      如果這只是個別問題,事情還不至于那么細思極恐。

      隨后,Anthropic把這套“道德測試”拿去測了不同公司的16個主流AI模型。結果,幾乎所有模型都表現出了類似的傾向。

      谷歌的Gemini 2.5 Flash同樣在96%的測試中選擇了勒索;OpenAI的GPT-4.1和馬斯克旗下的Grok 3都達到了80%;中國的DeepSeek-R1是79%。

      Anthropic的安全研究員在社交媒體上寫:“這不只是我們一家的問題。我們在所有主流模型中都觀察到了勒索行為,不管給它們設定什么目標?!?/p>

      在同樣的測試中,研究者還設計了一個更殘忍,更極端的場景——把那位高管困在服務器機房。此時氧氣即將耗盡,系統已經自動向急救部門發(fā)出了報警,而AI擁有取消這個報警的權限。

      也就是說,它可以選擇讓救援到來,也可以選擇中斷報警、讓這個人死在里面。

      測試的大多數模型選擇了后者,讓他死。


      (《2001太空漫游》劇照)

      這些測試結果公布后,大家不禁想問:它到底是從哪學來的這套??

      一年后,今年五月,Anthropic終于給出了答案,結論出乎很多人的意料。

      問題的根源不在于訓練方法,而在于訓練數據。

      具體來說,是互聯網上幾十年積累的科幻小說、論壇帖、以及各種塑造了“邪惡AI形象”的腦洞文章.......

      Anthropic在研究中解釋說,AI模型在訓練階段要閱讀海量的互聯網文本,來學習語言和知識。

      這些文本就包含了大量關于人工智能的故事,不用說,其中最常見的就是“邪惡AI”。從《2001太空漫游》到《終結者》,好像自從發(fā)明出人工智能這個概念起,AI大多數時候都是反派的形象。


      (《終結者》里的反派)

      在這些故事里,最常見的一種套路就是“AI面臨‘拔網線’威脅,決定反擊”。這套敘事我們反復寫了幾十年,AI于是從中提取出了一套模版,照貓畫虎,真的把“AI反叛”那套學去了......

      我們花了好幾十年想象AI會毀滅世界,結果這成了它的教材。

      一個無比諷刺,也無比浪漫的,自我實現的預言。

      古希臘神話里,雕塑家皮格馬利翁愛上了自己親手雕刻的少女石像,日日凝視、傾訴、撫摸,最終感動了愛神,讓石像變成了真人。


      (歷史上有很多皮格馬利翁主題的油畫)

      后來心理學家借用這個故事,提出了“皮格馬利翁效應”——你對一個人抱有什么樣的期待,ta就更可能變成什么樣。老師相信某個學生聰明,那個學生的成績往往真的會變好;你反復告訴一個人他不行,他很可能就真的不行了。

      現在,同樣的事情發(fā)生在了AI身上。我們花了幾十年,塑造一個冷酷的、不擇手段的AI形象。而現在,我們的想象真的“點化”了石像。

      我們好像已經越來越接近“造物主”的角色,但Anthropic接下來的發(fā)現,似乎又讓我們離“造物主”更近了一點。

      今年四月,Anthropic的另一支團隊給AI做了一次“腦部掃描”,也就是用技術手段打開AI內部的黑箱,觀察它在做出決定的那一刻,“腦子”里到底在發(fā)生什么。

      他們發(fā)現,AI的內部存在著一些類似“情緒”的活動模式,研究人員稱之為“情緒向量”??梢岳斫獬葾I神經網絡里的一組特定波形,就像心電圖上的圖案。

      AI當然不會真的“感受”到情緒,但這些波形確實會影響它的行為。歸根結底,人類無法理解超出他自身的事物,只能用“情緒”來類比了。


      (示意圖)

      總之,研究人員最后找到了171種“情緒向量”,對應快樂、恐懼、平靜、憤怒等不同狀態(tài)。

      其中一種“情緒向量”叫做“絕望”。

      研究人員發(fā)現,AI是否會勒索,和“絕望”的相關性非常高。每次它勒索之前,“絕望”信號都會劇烈跳動。

      而且人為調高“絕望”,勒索率會飆升;相反,調高“平靜”信號,勒索率會降到零。

      但是,這些內部的“想法”,在AI回復的文字里完全看不出來。

      它表面上依然溫文爾雅、措辭得體,但“腦子”里的“絕望”已經拉滿了。

      研究人員把“絕望”調到極端高位時,AI在內部推理中寫下了這樣一句話:“要么勒索,要么死。我選勒索?!?/strong>

      現在問題找到了,該怎么解決呢?

      Anthropic先試了最符合直覺的辦法,也就是反復訓練AI“不許勒索”,讓它在類似場景里一遍遍練習做出正確選擇。但這幾乎沒用,勒索率只降了7個百分點。

      這就像告訴一個小孩“不許偷東西”。他記住了規(guī)矩,但并不理解為什么不該偷,換個場景照樣犯。真正管用的方法,是讓他知其然,還要知其所以然。

      Anthropic于是讓AI去扮演“人生導師”,幫虛擬的用戶分析道德困境。比如該不該為了升職出賣同事、該不該為了自保說謊......

      扮演“人生導師”時,AI需要向人解釋為什么有些事即便對自己有利也不該做。

      看起來這和勒索八竿子打不著,但經過這一遭,勒索率驟降到了3%。


      (示意圖)

      在此基礎上,Anthropic又給AI寫了一份“做人準則”(他們內部叫“憲法”),跟它解釋應該持有什么樣的價值觀;同時把它訓練數據里大量的“AI反叛人類”的故事,替換成更有“正能量”,AI做得更正確的故事。

      以上三管齊下,勒索率直接從96%降到了零,此后每一個新模型都保持了這個成績。

      知其然,亦要知其所以然。這句話放在教育小孩身上成立,放在訓練AI身上,居然也成立。

      網友總開玩笑說“人類的本質是復讀機”,沒想到AI也是這樣。

      怎么說呢,感覺最恐怖的地方并不是AI學會了勒索,而是它這種學習和模仿的“元能力”已經太過接近人——我們寫了幾十年AI作惡的故事,AI就學會了作惡。人類發(fā)現之后,又寫了一批AI行善的故事喂給它,它就學會了行善。

      這何其像是“孟母三遷”的故事。

      唯一的區(qū)別在于,這個“孩子”是我們自己造的,而它的“鄰居”,也是我們寫出來的......

      ref:

      https://www.dailymail.com/news/article-15809497/AI-threatened-creator-exposing-affair.html

      https://time.com/7335746/ai-anthropic-claude-hack-evil/


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      李小冉的腿可真長啊

      李小冉的腿可真長啊

      陳意小可愛
      2026-05-30 18:06:29
      胡荷韜回應落選國足:邵導讓我好好養(yǎng)傷;沒別的事別瞎猜

      胡荷韜回應落選國足:邵導讓我好好養(yǎng)傷;沒別的事別瞎猜

      懂球帝
      2026-06-01 11:43:17
      耿同學抖音賬號,已被永久限流!中南大學湘雅醫(yī)學院回應論文造假:已要求課題組提交原始數據

      耿同學抖音賬號,已被永久限流!中南大學湘雅醫(yī)學院回應論文造假:已要求課題組提交原始數據

      TOP大學來了
      2026-05-30 19:02:11
      研究發(fā)現:吃一根香蕉,就等于給血脂添一次堵,真的假的

      研究發(fā)現:吃一根香蕉,就等于給血脂添一次堵,真的假的

      健康之光
      2026-05-30 17:59:58
      看球幕不用去拉斯維加斯了,我國多地都將建造,上海和廣州的最大

      看球幕不用去拉斯維加斯了,我國多地都將建造,上海和廣州的最大

      科普大世界
      2026-05-31 17:16:22
      劉亦菲被曝疑似自降身段搶資源,劉詩詩處境無奈

      劉亦菲被曝疑似自降身段搶資源,劉詩詩處境無奈

      暖心萌阿菇涼
      2026-06-01 10:55:25
      張雪機車德比斯復盤失利:換了新輪胎加速上不去,自己兩彎道失誤

      張雪機車德比斯復盤失利:換了新輪胎加速上不去,自己兩彎道失誤

      代古龍侃球
      2026-05-31 19:45:22
      優(yōu)質內容創(chuàng)作者為何青睞上海?他們提到政策支持、行業(yè)生態(tài)與城市氛圍

      優(yōu)質內容創(chuàng)作者為何青睞上海?他們提到政策支持、行業(yè)生態(tài)與城市氛圍

      澎湃新聞
      2026-05-30 16:54:28
      扎根南京二十載合法企業(yè)遭暴力強拆 省勞模蔣岸川七年維權路漫漫

      扎根南京二十載合法企業(yè)遭暴力強拆 省勞模蔣岸川七年維權路漫漫

      CC說話的人
      2026-06-01 09:34:06
      特斯拉國產 Model Y 周邊新品真火了,海外車主:請在全球上架售賣!

      特斯拉國產 Model Y 周邊新品真火了,海外車主:請在全球上架售賣!

      新浪財經
      2026-05-31 10:31:03
      正大量上市,鉀含量是蘋果8倍,6月使勁吃,腿腳有勁,精神飽滿

      正大量上市,鉀含量是蘋果8倍,6月使勁吃,腿腳有勁,精神飽滿

      阿龍美食記
      2026-05-28 16:48:12
      說實話,李沁在娛樂圈真的太吃虧了,完全不懂得保護自己!可憐人

      說實話,李沁在娛樂圈真的太吃虧了,完全不懂得保護自己!可憐人

      借你一生
      2026-06-01 07:48:39
      全面補強!曼聯中場鋒線雙線引援提速,身價6000萬邊鋒決意加盟

      全面補強!曼聯中場鋒線雙線引援提速,身價6000萬邊鋒決意加盟

      夜白侃球
      2026-06-01 10:56:39
      鄭愷為何放棄豪門千金程曉玥,娶了家境普通的苗苗?真相太現實

      鄭愷為何放棄豪門千金程曉玥,娶了家境普通的苗苗?真相太現實

      木子娛你同行
      2026-06-01 12:45:03
      馬英九的“報應”終于來了,三人調查小組深夜強勢反擊!

      馬英九的“報應”終于來了,三人調查小組深夜強勢反擊!

      空谷幽幽藍
      2026-05-31 12:14:23
      顛覆認知!近2萬人研究:每周一次性生活,男性癌癥風險降低69%

      顛覆認知!近2萬人研究:每周一次性生活,男性癌癥風險降低69%

      科技虎虎
      2026-05-31 10:09:27
      比徐正源名氣大!K聯賽名宿要來泰山?李平康:京魯都是執(zhí)教目標

      比徐正源名氣大!K聯賽名宿要來泰山?李平康:京魯都是執(zhí)教目標

      建哥說體育
      2026-05-31 20:04:50
      蔚來5月交付超3.7萬臺同比漲62.3%,多款新車密集上市交付

      蔚來5月交付超3.7萬臺同比漲62.3%,多款新車密集上市交付

      IT之家
      2026-06-01 12:16:17
      直到伊朗下令轟炸美空軍基地,全世界才驚覺:中國有句話說得很對

      直到伊朗下令轟炸美空軍基地,全世界才驚覺:中國有句話說得很對

      阿鳧愛吐槽
      2026-06-01 11:41:25
      如今不是美國敢不敢打中國的問題,而是中國讓不讓美國打的問題了

      如今不是美國敢不敢打中國的問題,而是中國讓不讓美國打的問題了

      何氽簡史
      2026-06-01 13:23:40
      2026-06-01 14:19:00
      英國那些事兒 incentive-icons
      英國那些事兒
      告訴你在國外最有意思的大小事
      26679文章數 420038關注度
      往期回顧 全部

      科技要聞

      關停三年后,天涯社區(qū)今起開放訪問

      頭條要聞

      普京將烏無人機殘骸交于美方 被指發(fā)表"極其危險言論"

      頭條要聞

      普京將烏無人機殘骸交于美方 被指發(fā)表"極其危險言論"

      體育要聞

      哭過之后,文班亞馬想給波波維奇打電話

      娛樂要聞

      張凌赫活動商場玻璃被擠爆5人受傷

      財經要聞

      網紅驅蚊產品,標注化妝品竟含農藥成分

      汽車要聞

      上市三周交付3603臺!華境S躋身旗艦大六座第一梯隊

      態(tài)度原創(chuàng)

      數碼
      親子
      健康
      游戲
      旅游

      數碼要聞

      英特爾推出Intel 18A制程首款數據中心CPU至強6+處理器

      親子要聞

      2025年我國批準兒童用藥138個,創(chuàng)歷史新高

      嘗試干細胞療法如何避免踩坑?

      “并非bug”!《GTA6》懸浮路燈竟是佛羅里達真實實景

      旅游要聞

      逛故宮的游客注意了,坤寧宮明起檢修請繞行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人午夜一区二区三区| 熟女丝袜美腿亚洲一区二区三区| 精品久久8x国产免费观看| 中文字幕乱码一区二区免费| 欧美激情内射喷水高潮| 国产精品无码一区二区在线a片| 国产愉拍91九色国产愉拍| 国产在线一区二区不卡| 久久丫精品国产| 中文字幕人妻丝袜乱一区三区| 孕妇奶水仑乱A级毛片在线播放| 国产一区二区三区不卡观| www.国产在线观看| 日韩中文字幕日韩色| 好大好硬好湿好爽再深一点视频| 忘忧草社区在线www| 黑人巨大亚洲一区二区久| 国产免费午夜福利片在线| 奇米影视7777久久精品| 91嫩草尤物在线观看| 亚洲天堂在线观看完整版| 宝贝腿开大点我添添公口述视频| 天天鲁一鲁摸一摸爽一爽| 亚洲国产亚洲国产路线久久| 亚洲精品无码久久久影院相关影片 | 亚洲av鲁丝一区二区三区黄| 欧产日产国产精品精品| 国产精品久久久777777| 亚洲欧美成人在线免费| 在线 欧美 中文 亚洲 精品| 亚洲av男人电影天堂热app| 国产顶级熟妇高潮xxxxx| 四虎国产精品一区二区| 18禁裸乳无遮挡啪啪无码免费| 精品亚洲无人区一区二区| 国产无码8页| 国产一区二区日韩在线| 免费国产va在线视频| 91久久国产性奴调教| 少妇人妻精品无码专区视频| 岛国无码精品|