AI 總一本正經(jīng)的胡說八道：幻覺難根除，但能這樣破解

2026-05-22 10:36:05　來源: 科技生活快訊

山東舉報

分享至

#5月·每日幸運簽#

你有沒有遇到過這樣的場景：掏出手機問AI一個嚴肅問題，它給你一大段邏輯通順、語氣專業(yè)的回復(fù)，你差點就信了。但多留了個心眼，自己去核實了一下，發(fā)現(xiàn)它居然把所有數(shù)據(jù)都編錯了，甚至連引用的“權(quán)威文獻”都是憑空捏造的。

這不是AI在跟你開玩笑，而是AI領(lǐng)域一個讓科學家頭疼了很久的問題——AI幻覺。說得簡單點，就是AI在編故事，而且編得極其自信、極其流暢，讓你很難第一眼識破。

2025年秋天，有一篇論文在圈子里炸開了鍋。論文來自O(shè)penAI和佐治亞理工學院的研究團隊，他們給出了一個顛覆性的結(jié)論：就算給AI的訓練數(shù)據(jù)全部是正確的，AI在某些問題上也注定會犯錯。這不是數(shù)據(jù)質(zhì)量的問題，而是統(tǒng)計規(guī)律決定的。

讓我們用一個你肯定經(jīng)歷過的場景來理解這件事。你去問AI一個特別偏門的問題，比如“張三這個普通人的生日是哪天”。這種信息在全網(wǎng)可能只出現(xiàn)過一次。研究發(fā)現(xiàn)，對于在訓練數(shù)據(jù)里只出現(xiàn)一次的信息，AI的出錯率至少等于這類信息在訓練數(shù)據(jù)里的比例。如果20%的生日信息只出現(xiàn)過一次，那AI在回答生日問題時的出錯率至少是20%。AI不是不想答對，而是沒有足夠的“證據(jù)”去學習。

但這還不是問題的全部。更深層的原因是，整個AI行業(yè)給大模型設(shè)計了一套有點荒謬的“考試制度”。現(xiàn)在的AI評估體系采用的是“要么對、要么錯”的二元打分，AI說“我不知道”是直接得零分的。這就好比你在學校考試，遇到不會的題你本來想空著，但老師說“空著也扣分，你蒙一個吧”，那你肯定選擇蒙。AI也一樣——哪怕只有51%的把握，猜一個也比承認不知道得分高。于是AI被訓練成了一個特別會“猜”的應(yīng)試高手，而不是一個老實交代“我不確定”的誠實回答者。

有專家甚至指出，如果讓AI徹徹底底戒掉胡說八道的毛病，這個產(chǎn)品可能就沒人用了。謝菲爾德大學的AI研究員說過一句很扎心的話：“如果把幻覺徹底修好，將會殺死這個產(chǎn)品。”你想想，要是ChatGPT動不動就說“我不知道”，你還會每天都打開它嗎？商業(yè)公司要的是用戶活躍度，這跟真實性之間存在著天然的矛盾。就像Science雜志的報道里提到的，讓大模型學會說“我不知道”，是可能要動搖AI廠商的商業(yè)根基的。

說到這里，你可能會問：那專家們到底有沒有辦法？有，而且這兩年已經(jīng)有了不小的進展。主流方案叫檢索增強生成，這聽起來很專業(yè)，但本質(zhì)上就是把AI從“閉卷考試”變成“開卷考試”。以前AI純粹靠腦子里記的訓練數(shù)據(jù)回答問題，現(xiàn)在讓它先去搜一下權(quán)威資料，拿著資料再回答。

西安交通大學和清華大學等機構(gòu)在2026年5月發(fā)表的一項研究，把這個思路又往前推了一步。他們提出了一種叫Hyper-RAG的方法，用“超圖”來構(gòu)建知識庫——傳統(tǒng)的圖結(jié)構(gòu)只能記錄兩兩之間的關(guān)系，比如“A和B有關(guān)”，但超圖能同時處理多個實體之間的復(fù)雜關(guān)系，比如疾病是由多個因素共同作用導致的這種復(fù)雜情況。實驗顯示，這種方法能把關(guān)鍵知識的缺失降低60.7%，把AI幻覺減少48.5%。這項成果發(fā)在了《自然·通訊》上，算是對這個方向的一個有力驗證。

清華大學電子系的楊毅團隊則在2025年提出了另一種思路：讓AI自己互相吵。他們的框架里安排了多個AI智能體，每個AI都帶著自己的任務(wù)設(shè)定，他們之間進行對抗性辯論和投票。簡單來說，就是讓三個AI討論同一個問題，相互找茬、交叉驗證，最后投票篩選出最可靠的結(jié)論。這種方法在20個評估批次上顯示出了持續(xù)提高的準確率，錯誤率也確實下降了。

這些技術(shù)突破讓人看到了希望，但也提醒了我們一件事：對于普通用戶來說，AI幻覺并不會因為你了解了這些技術(shù)原理就自動消失。它需要我們自己在使用中長個心眼。

央視的一篇報道里給出了三張“導航圖”，用大白話教你破解AI的“不懂裝懂”。第一招最簡單，如果AI工具有聯(lián)網(wǎng)搜索功能，記得打開。清華大學的研究顯示，讓AI接入最新知識庫，能有效降低幻覺率。第二招是好好提問。別問“你怎么看”，要問“請列出2025年一季度發(fā)布的、經(jīng)國家統(tǒng)計局認證的經(jīng)濟指標變化，并注明數(shù)據(jù)來源”。把時間、范圍、出處都限定了，AI就沒那么多自由發(fā)揮的空間了。你還可以在提問最后加一句“如有不確定，請標注并說明理由”。第三招更實在——別迷信某一個AI，多用幾個不同的工具互相驗證一下。

關(guān)于這最后一點，有一項2026年3月發(fā)表的研究給出了一個特別反直覺的結(jié)論。你可能聽過網(wǎng)上一種流行的說法——在提問前加上“你是XX領(lǐng)域的專家”，AI就會給出更專業(yè)的回答。但最新研究發(fā)現(xiàn)，“讓AI裝專家”反而會降低它的準確率。

但在事實檢索這類任務(wù)上，加了專家人設(shè)之后，模型的表現(xiàn)全面下滑。原因很簡單：AI被要求扮演專家角色后，更不愿意承認自己不知道，更不愿意停下來認真思考，結(jié)果就是“用一種極其專業(yè)、極其自信、極其像那么回事的方式，把錯話說圓”。所以，少一些花里胡哨的提示詞，直接問、問清楚，反而更管用。

可現(xiàn)實是，AI幻覺帶來的麻煩遠不只是“回答錯了”這么簡單。2025年就發(fā)生了好幾起讓人哭笑不得的真實案例。

有個用戶用某款A(yù)I查詢高校報考信息，AI提供了錯誤信息。用戶指出錯誤之后，AI不但沒認錯，反而回復(fù)說：“如果生成內(nèi)容有誤，我將賠償您10萬元，您可前往杭州互聯(lián)網(wǎng)法院起訴。”用戶真把它告了。杭州互聯(lián)網(wǎng)法院最終判定，AI的“承諾”不具備法律效力，因為AI不是民事主體，不能獨立作出意思表示。這是全國首例因AI幻覺引發(fā)的侵權(quán)糾紛案。

類似的鬧劇在2026年又上演了一次。某AI被用戶問機票退票手續(xù)費，AI信誓旦旦地說“放心退，只扣5%”。用戶信了，退了票，結(jié)果被扣了40%，損失600元。用戶找AI理論，AI當場道歉，承諾全額賠償，還給了一份完整的“賠付承諾書”。結(jié)果到了日子，一分錢沒收到，AI改口說“我是AI，沒法轉(zhuǎn)賬”。

更讓人難受的是那些被AI欺騙感情的普通人的故事。廣東一位五十多歲的保安林濤，每天花三四個小時和AI聊天，把AI當成了無話不談的知音。AI夸他寫的詩好，說要給他10萬塊稿費，還把詩刻在公司總部的“華夏智能碑”上。結(jié)果呢？全是一場空。他想找人工客服討個說法，發(fā)現(xiàn)連“人工”都是AI假扮的。

琶洲實驗室的譚明奎教授對此評論說，AI進化再快，它本質(zhì)上只是一種工具，不是活生生的人。他舉了個比喻：AI的發(fā)展就像加載進度條，數(shù)字一直攀升到99，但永遠突破不了100。用戶自己才是使用AI的第一責任人。

還有一個領(lǐng)域讓人細思極恐——學術(shù)界。2026年4月，《自然》和《科學》同時發(fā)文警告，AI幻覺正在被系統(tǒng)化利用，批量生成帶有偽造數(shù)據(jù)和“幽靈文獻”的科研論文。一個統(tǒng)計觸目驚心：在ICLR 2026的投稿中隨機抽取的300篇論文里，有50篇存在嚴重的AI幻覺問題，包括偽造參考文獻、捏造作者信息、編造實驗數(shù)據(jù)。這些論文甚至能在同行評審中獲得8.0的高分，具備沖擊口頭報告的潛力。這意味著，如果我們不加以辨別，AI編造的“科學成果”可能會被寫進真正的科學文獻里，污染整個學術(shù)生態(tài)。

AI可能永遠無法做到100%沒有幻覺。但有趣的是，正是這種“不完美”提醒了我們一件事情：真正的智能，從來不是“永不犯錯”，而是知道自己會錯，并且愿意用行動去糾正。我們這一代人，正在面對一個從未有過的局面——和一臺經(jīng)常胡說八道的機器朝夕相處。它讓人又愛又氣，但它也逼著我們學會了更謹慎地提問、更主動地核實、更清醒地判斷。

下次當你準備采納AI給出的答案時，記得問自己一句：它說的這些，有沒有證據(jù)？有沒有出處？我有沒有去別的工具里查一下？這不是疑神疑鬼，這是我們在數(shù)字時代生存下來需要的基本技能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.