![]()
![]()
給孩子買輛嶄新的自行車,所有人的目光都會集中在自行車上,而不是與之配套的閃亮頭盔。但家長們卻很在意頭盔。
恐怕如今我們很多人在人工智能方面都像孩子一樣。我們只關(guān)注它有多酷炫,以及它能讓我們用它跑多快,卻很少關(guān)注如何在使用它時確保安全。這很可惜,因為二者缺一不可。
簡而言之,在沒有事先周密規(guī)劃安全措施的情況下應(yīng)用人工智能,不僅僅是冒險,簡直就是自尋死路。
01
人工智能安全究竟意味著什么?
人工智能安全涉及諸多步驟,但或許最重要的在于何時采取這些步驟。要真正有效,人工智能安全必須從設(shè)計之初就融入其中。
這意味著,在進行測試之前,我們會考慮如何防止造成傷害。我們會先確保人工智能的運行和結(jié)果符合我們的價值觀和社會期望,而不是等到出現(xiàn)糟糕的結(jié)果之后才去研究如何確保人工智能的運行和結(jié)果符合我們的價值觀和社會期望。
人工智能安全設(shè)計還包括考慮如何使其穩(wěn)健可靠,即使在不利情況下也能保持可預(yù)測的運行狀態(tài)。這意味著要讓人工智能透明化,使其決策易于理解、可審計且公正無偏。
但這其中也包括審視人工智能將要運行的世界。我們需要哪些制度和法律保障措施,尤其是在遵守相關(guān)政府法規(guī)方面?而且,我必須強調(diào)人的因素:人工智能的使用會對與之互動的人們產(chǎn)生什么影響?
從設(shè)計上就保證安全,意味著在輸入第一個提示之前,就將人工智能安全融入到我們所有的流程、工作流程和操作中。
02
風(fēng)險大于擔(dān)憂
并非所有人都認同這種觀點。有些人一聽到“安全第一”,就想到“小心翼翼、步履蹣跚,最終被時代拋在后面”。當(dāng)然,安全第一并非如此。它不必扼殺創(chuàng)新或延緩產(chǎn)品上市。它也不意味著無休止地進行試點,最終卻無法規(guī)模化。恰恰相反。
這確實意味著要了解人工智能設(shè)計中缺乏安全措施所帶來的風(fēng)險。請看以下幾個例子。
德勤金融服務(wù)中心預(yù)測,到 2027 年,僅在美國,基因人工智能就可能導(dǎo)致欺詐損失達到 400 億美元,而 2023 年為 123 億美元,復(fù)合年增長率達 32%。
帶有偏見的決策。案例記錄了
由于人工智能使用帶有偏見的數(shù)據(jù)進行訓(xùn)練而導(dǎo)致的醫(yī)療偏見。
糟糕的決策會引發(fā)更多糟糕的決策。研究表明,比最初由人工智能缺陷導(dǎo)致的錯誤決策更糟糕的是,這些錯誤的決策會影響我們的思維方式和未來的決策過程。
真實后果。人工智能提供的錯誤醫(yī)療建議已導(dǎo)致患者死亡。將人工智能的幻覺作為法律先例引用,引發(fā)了法律糾紛。此外,人工智能助手提供錯誤信息導(dǎo)致的軟件故障,損害了公司產(chǎn)品及其聲譽,并導(dǎo)致用戶普遍不滿。
事情接下來會變得更加有趣。
智能體人工智能(能夠自主運行并根據(jù)自身決策采取行動的人工智能)的出現(xiàn)和快速普及,將凸顯人工智能安全設(shè)計的重要性。
能夠代表你行事的AI Agent將非常有用。它不僅可以告訴你最佳航班信息,還能幫你找到并預(yù)訂機票。如果你想退貨,公司的AI Agent不僅可以告訴你退貨政策和退貨流程,還能幫你處理整個退貨交易。
很好——只要AI Agent不會憑空捏造航班信息,或者錯誤處理你的財務(wù)信息。或者搞錯公司的退貨政策,拒絕合理的退貨申請。
不難看出,當(dāng)前人工智能的安全風(fēng)險很容易隨著大量AI Agent四處活動、做出決策和采取行動而蔓延開來,尤其是在它們不太可能單獨行動的情況下。智能體人工智能的真正價值很大程度上來自于AI Agent團隊,每個AI Agent負責(zé)一部分任務(wù),并通過AI Agent之間的協(xié)作來完成工作。
那么,如何在不阻礙創(chuàng)新和扼殺人工智能潛在價值的前提下,從設(shè)計之初就注重人工智能的安全性呢?
03
安全設(shè)計實踐
臨時性的安全檢查并非解決之道。將安全措施融入人工智能實施的每個階段才是正解。
首先要準(zhǔn)備好數(shù)據(jù)。確保數(shù)據(jù)已標(biāo)注(必要時已添加注釋)、無偏見且高質(zhì)量。這一點對于訓(xùn)練數(shù)據(jù)尤為重要。
利用人類反饋訓(xùn)練模型,因為人類的判斷對于塑造模型行為至關(guān)重要。強化學(xué)習(xí)與人類反饋(RLHF)及其他類似技術(shù)允許標(biāo)注者對響應(yīng)進行評分和指導(dǎo),從而幫助邏輯學(xué)習(xí)模型(LLM)生成安全且符合人類價值觀的輸出。
然后,在發(fā)布模型之前,務(wù)必進行壓力測試。紅隊會使用對抗性提示、極端情況和越獄嘗試來誘發(fā)不安全行為,從而暴露漏洞。在公開發(fā)布之前修復(fù)這些漏洞,可以防患于未然,確保安全。
雖然這種測試可以確保您的 AI 模型具有穩(wěn)健性,但請繼續(xù)監(jiān)控它們,密切關(guān)注新出現(xiàn)的威脅以及可能需要對模型進行的調(diào)整。
同樣,應(yīng)定期監(jiān)控內(nèi)容來源和數(shù)字互動,以發(fā)現(xiàn)欺詐跡象。至關(guān)重要的是,應(yīng)采用人工智能與人工相結(jié)合的方式,讓人工智能自動化系統(tǒng)處理海量數(shù)據(jù),而由經(jīng)驗豐富的人員進行審核,以確保監(jiān)管到位和準(zhǔn)確性。
應(yīng)用智能體人工智能需要格外謹(jǐn)慎。一個基本要求是:訓(xùn)練智能體了解自身的局限性。當(dāng)它遇到不確定性、倫理困境、新情況或風(fēng)險極高的決策時,務(wù)必確保它知道如何尋求幫助。
此外,務(wù)必在Agent程序中設(shè)計可追溯性。這一點尤為重要,它可以確保
Agent程序僅與已驗證用戶進行交互,從而避免欺詐者影響Agent程序的行為。
如果Agent看起來工作高效,你可能會想放手讓他們自由發(fā)揮。但我們的經(jīng)驗表明,應(yīng)該持續(xù)監(jiān)控他們及其執(zhí)行的任務(wù),以防出現(xiàn)錯誤或異常行為。同時采用自動化檢查和人工審核。
事實上,人工智能安全的關(guān)鍵要素之一是人類的定期參與。在決策或行動中,凡涉及批判性判斷、同理心或細微差別和模糊之處時,都應(yīng)有人類的參與。
再次強調(diào),這些都是你在人工智能實現(xiàn)過程中預(yù)先設(shè)計好的實踐方法。它們并非是在出現(xiàn)問題后才匆忙想辦法將損失降到最低的結(jié)果。
04
它真的有效嗎?
從GenAI興起到如今快速邁向智能體AI,我們始終秉持“人工智能安全至上”的理念,并運用“設(shè)計即安全”的框架與客戶緊密合作。我們發(fā)現(xiàn),與人們擔(dān)心的會拖慢發(fā)展速度相反,這種理念實際上有助于加速發(fā)展。
例如,智能體人工智能有望將客戶支持成本降低 25% 至 50%,同時提升客戶滿意度。但這都取決于信任。
使用人工智能的人必須信任它,而與人工智能客服人員或真正的AI Agent互動的客戶,不能經(jīng)歷任何可能動搖他們信任的互動。一次糟糕的體驗就可能徹底摧毀消費者對品牌的信心。
我們不信任不安全的事物。因此,當(dāng)我們把安全機制融入即將推出的人工智能的每一層時,我們就能充滿信心地進行部署。而當(dāng)我們準(zhǔn)備好擴展規(guī)模時,我們也能快速且充滿信心地完成部署。
將“人工智能安全第一”付諸實踐或許看似困難重重,但您并非孤軍奮戰(zhàn)。眾多專家可以提供幫助,合作伙伴也能分享他們的經(jīng)驗和心得,助您安全地利用人工智能的價值,而不會影響您的發(fā)展。
人工智能的發(fā)展至今為止令人興奮,隨著發(fā)展速度的加快,我感到無比激動。但我同時也慶幸自己時刻保持警惕。
免責(zé)聲明:
本文所發(fā)布的內(nèi)容和圖片旨在傳播行業(yè)信息,版權(quán)歸原作者所有,非商業(yè)用途。如有侵權(quán),請與我們聯(lián)系刪除。所有信息不構(gòu)成任何投資建議,加密市場具有高度風(fēng)險,投資者應(yīng)基于自身判斷和謹(jǐn)慎評估做出決策。投資有風(fēng)險,入市需謹(jǐn)慎。
設(shè)為星標(biāo) 避免錯過
虛擬世界沒有旁觀者,每個點贊都是創(chuàng)造歷史的像素
關(guān)注我,一起探索AWM?
2025-12-10
2025-12-09
2025-12-08
商業(yè)贊助
![]()
點擊下方 “目錄” 閱讀更多
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.