網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

【人工智能】AI 優(yōu)先意味著安全優(yōu)先

2025-12-17 19:06:30　來源: 七元宇宙

廣東舉報

分享至

給孩子買輛嶄新的自行車，所有人的目光都會集中在自行車上，而不是與之配套的閃亮頭盔。但家長們卻很在意頭盔。

恐怕如今我們很多人在人工智能方面都像孩子一樣。我們只關(guān)注它有多酷炫，以及它能讓我們用它跑多快，卻很少關(guān)注如何在使用它時確保安全。這很可惜，因為二者缺一不可。

簡而言之，在沒有事先周密規(guī)劃安全措施的情況下應(yīng)用人工智能，不僅僅是冒險，簡直就是自尋死路。

人工智能安全究竟意味著什么？

人工智能安全涉及諸多步驟，但或許最重要的在于何時采取這些步驟。要真正有效，人工智能安全必須從設(shè)計之初就融入其中。

這意味著，在進行測試之前，我們會考慮如何防止造成傷害。我們會先確保人工智能的運行和結(jié)果符合我們的價值觀和社會期望，而不是等到出現(xiàn)糟糕的結(jié)果之后才去研究如何確保人工智能的運行和結(jié)果符合我們的價值觀和社會期望。

人工智能安全設(shè)計還包括考慮如何使其穩(wěn)健可靠，即使在不利情況下也能保持可預(yù)測的運行狀態(tài)。這意味著要讓人工智能透明化，使其決策易于理解、可審計且公正無偏。

但這其中也包括審視人工智能將要運行的世界。我們需要哪些制度和法律保障措施，尤其是在遵守相關(guān)政府法規(guī)方面？而且，我必須強調(diào)人的因素：人工智能的使用會對與之互動的人們產(chǎn)生什么影響？

從設(shè)計上就保證安全，意味著在輸入第一個提示之前，就將人工智能安全融入到我們所有的流程、工作流程和操作中。

風(fēng)險大于擔(dān)憂

并非所有人都認同這種觀點。有些人一聽到“安全第一”，就想到“小心翼翼、步履蹣跚，最終被時代拋在后面”。當(dāng)然，安全第一并非如此。它不必扼殺創(chuàng)新或延緩產(chǎn)品上市。它也不意味著無休止地進行試點，最終卻無法規(guī)模化。恰恰相反。

這確實意味著要了解人工智能設(shè)計中缺乏安全措施所帶來的風(fēng)險。請看以下幾個例子。

德勤金融服務(wù)中心預(yù)測，到 2027 年，僅在美國，基因人工智能就可能導(dǎo)致欺詐損失達到 400 億美元，而 2023 年為 123 億美元，復(fù)合年增長率達 32%。
帶有偏見的決策。案例記錄了
由于人工智能使用帶有偏見的數(shù)據(jù)進行訓(xùn)練而導(dǎo)致的醫(yī)療偏見。
糟糕的決策會引發(fā)更多糟糕的決策。研究表明，比最初由人工智能缺陷導(dǎo)致的錯誤決策更糟糕的是，這些錯誤的決策會影響我們的思維方式和未來的決策過程。
真實后果。人工智能提供的錯誤醫(yī)療建議已導(dǎo)致患者死亡。將人工智能的幻覺作為法律先例引用，引發(fā)了法律糾紛。此外，人工智能助手提供錯誤信息導(dǎo)致的軟件故障，損害了公司產(chǎn)品及其聲譽，并導(dǎo)致用戶普遍不滿。

事情接下來會變得更加有趣。

智能體人工智能（能夠自主運行并根據(jù)自身決策采取行動的人工智能）的出現(xiàn)和快速普及，將凸顯人工智能安全設(shè)計的重要性。

能夠代表你行事的AI Agent將非常有用。它不僅可以告訴你最佳航班信息，還能幫你找到并預(yù)訂機票。如果你想退貨，公司的AI Agent不僅可以告訴你退貨政策和退貨流程，還能幫你處理整個退貨交易。

很好——只要AI Agent不會憑空捏造航班信息，或者錯誤處理你的財務(wù)信息。或者搞錯公司的退貨政策，拒絕合理的退貨申請。

不難看出，當(dāng)前人工智能的安全風(fēng)險很容易隨著大量AI Agent四處活動、做出決策和采取行動而蔓延開來，尤其是在它們不太可能單獨行動的情況下。智能體人工智能的真正價值很大程度上來自于AI Agent團隊，每個AI Agent負責(zé)一部分任務(wù)，并通過AI Agent之間的協(xié)作來完成工作。

那么，如何在不阻礙創(chuàng)新和扼殺人工智能潛在價值的前提下，從設(shè)計之初就注重人工智能的安全性呢？

安全設(shè)計實踐

臨時性的安全檢查并非解決之道。將安全措施融入人工智能實施的每個階段才是正解。

首先要準(zhǔn)備好數(shù)據(jù)。確保數(shù)據(jù)已標(biāo)注（必要時已添加注釋）、無偏見且高質(zhì)量。這一點對于訓(xùn)練數(shù)據(jù)尤為重要。

利用人類反饋訓(xùn)練模型，因為人類的判斷對于塑造模型行為至關(guān)重要。強化學(xué)習(xí)與人類反饋（RLHF）及其他類似技術(shù)允許標(biāo)注者對響應(yīng)進行評分和指導(dǎo)，從而幫助邏輯學(xué)習(xí)模型（LLM）生成安全且符合人類價值觀的輸出。

然后，在發(fā)布模型之前，務(wù)必進行壓力測試。紅隊會使用對抗性提示、極端情況和越獄嘗試來誘發(fā)不安全行為，從而暴露漏洞。在公開發(fā)布之前修復(fù)這些漏洞，可以防患于未然，確保安全。

雖然這種測試可以確保您的 AI 模型具有穩(wěn)健性，但請繼續(xù)監(jiān)控它們，密切關(guān)注新出現(xiàn)的威脅以及可能需要對模型進行的調(diào)整。

同樣，應(yīng)定期監(jiān)控內(nèi)容來源和數(shù)字互動，以發(fā)現(xiàn)欺詐跡象。至關(guān)重要的是，應(yīng)采用人工智能與人工相結(jié)合的方式，讓人工智能自動化系統(tǒng)處理海量數(shù)據(jù)，而由經(jīng)驗豐富的人員進行審核，以確保監(jiān)管到位和準(zhǔn)確性。

應(yīng)用智能體人工智能需要格外謹(jǐn)慎。一個基本要求是：訓(xùn)練智能體了解自身的局限性。當(dāng)它遇到不確定性、倫理困境、新情況或風(fēng)險極高的決策時，務(wù)必確保它知道如何尋求幫助。

此外，務(wù)必在Agent程序中設(shè)計可追溯性。這一點尤為重要，它可以確保
Agent程序僅與已驗證用戶進行交互，從而避免欺詐者影響Agent程序的行為。

如果Agent看起來工作高效，你可能會想放手讓他們自由發(fā)揮。但我們的經(jīng)驗表明，應(yīng)該持續(xù)監(jiān)控他們及其執(zhí)行的任務(wù)，以防出現(xiàn)錯誤或異常行為。同時采用自動化檢查和人工審核。

事實上，人工智能安全的關(guān)鍵要素之一是人類的定期參與。在決策或行動中，凡涉及批判性判斷、同理心或細微差別和模糊之處時，都應(yīng)有人類的參與。

再次強調(diào)，這些都是你在人工智能實現(xiàn)過程中預(yù)先設(shè)計好的實踐方法。它們并非是在出現(xiàn)問題后才匆忙想辦法將損失降到最低的結(jié)果。

它真的有效嗎？

從GenAI興起到如今快速邁向智能體AI，我們始終秉持“人工智能安全至上”的理念，并運用“設(shè)計即安全”的框架與客戶緊密合作。我們發(fā)現(xiàn)，與人們擔(dān)心的會拖慢發(fā)展速度相反，這種理念實際上有助于加速發(fā)展。

例如，智能體人工智能有望將客戶支持成本降低 25% 至 50%，同時提升客戶滿意度。但這都取決于信任。

使用人工智能的人必須信任它，而與人工智能客服人員或真正的AI Agent互動的客戶，不能經(jīng)歷任何可能動搖他們信任的互動。一次糟糕的體驗就可能徹底摧毀消費者對品牌的信心。

我們不信任不安全的事物。因此，當(dāng)我們把安全機制融入即將推出的人工智能的每一層時，我們就能充滿信心地進行部署。而當(dāng)我們準(zhǔn)備好擴展規(guī)模時，我們也能快速且充滿信心地完成部署。

將“人工智能安全第一”付諸實踐或許看似困難重重，但您并非孤軍奮戰(zhàn)。眾多專家可以提供幫助，合作伙伴也能分享他們的經(jīng)驗和心得，助您安全地利用人工智能的價值，而不會影響您的發(fā)展。

人工智能的發(fā)展至今為止令人興奮，隨著發(fā)展速度的加快，我感到無比激動。但我同時也慶幸自己時刻保持警惕。

免責(zé)聲明：

本文所發(fā)布的內(nèi)容和圖片旨在傳播行業(yè)信息，版權(quán)歸原作者所有，非商業(yè)用途。如有侵權(quán)，請與我們聯(lián)系刪除。所有信息不構(gòu)成任何投資建議，加密市場具有高度風(fēng)險，投資者應(yīng)基于自身判斷和謹(jǐn)慎評估做出決策。投資有風(fēng)險，入市需謹(jǐn)慎。

設(shè)為星標(biāo) 避免錯過

虛擬世界沒有旁觀者，每個點贊都是創(chuàng)造歷史的像素

關(guān)注我，一起探索AWM?

2025-12-10

2025-12-09

2025-12-08

商業(yè)贊助

點擊下方 “目錄” 閱讀更多

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.