#5月·每日幸運簽#
你有沒有遇到過這樣的場景:掏出手機問AI一個嚴肅問題,它給你一大段邏輯通順、語氣專業(yè)的回復(fù),你差點就信了。但多留了個心眼,自己去核實了一下,發(fā)現(xiàn)它居然把所有數(shù)據(jù)都編錯了,甚至連引用的“權(quán)威文獻”都是憑空捏造的。
這不是AI在跟你開玩笑,而是AI領(lǐng)域一個讓科學家頭疼了很久的問題——AI幻覺。說得簡單點,就是AI在編故事,而且編得極其自信、極其流暢,讓你很難第一眼識破。
2025年秋天,有一篇論文在圈子里炸開了鍋。論文來自O(shè)penAI和佐治亞理工學院的研究團隊,他們給出了一個顛覆性的結(jié)論:就算給AI的訓練數(shù)據(jù)全部是正確的,AI在某些問題上也注定會犯錯。這不是數(shù)據(jù)質(zhì)量的問題,而是統(tǒng)計規(guī)律決定的。
![]()
讓我們用一個你肯定經(jīng)歷過的場景來理解這件事。你去問AI一個特別偏門的問題,比如“張三這個普通人的生日是哪天”。這種信息在全網(wǎng)可能只出現(xiàn)過一次。研究發(fā)現(xiàn),對于在訓練數(shù)據(jù)里只出現(xiàn)一次的信息,AI的出錯率至少等于這類信息在訓練數(shù)據(jù)里的比例。如果20%的生日信息只出現(xiàn)過一次,那AI在回答生日問題時的出錯率至少是20%。AI不是不想答對,而是沒有足夠的“證據(jù)”去學習。
但這還不是問題的全部。更深層的原因是,整個AI行業(yè)給大模型設(shè)計了一套有點荒謬的“考試制度”。現(xiàn)在的AI評估體系采用的是“要么對、要么錯”的二元打分,AI說“我不知道”是直接得零分的。這就好比你在學校考試,遇到不會的題你本來想空著,但老師說“空著也扣分,你蒙一個吧”,那你肯定選擇蒙。AI也一樣——哪怕只有51%的把握,猜一個也比承認不知道得分高。于是AI被訓練成了一個特別會“猜”的應(yīng)試高手,而不是一個老實交代“我不確定”的誠實回答者。
有專家甚至指出,如果讓AI徹徹底底戒掉胡說八道的毛病,這個產(chǎn)品可能就沒人用了。謝菲爾德大學的AI研究員說過一句很扎心的話:“如果把幻覺徹底修好,將會殺死這個產(chǎn)品。”你想想,要是ChatGPT動不動就說“我不知道”,你還會每天都打開它嗎?商業(yè)公司要的是用戶活躍度,這跟真實性之間存在著天然的矛盾。就像Science雜志的報道里提到的,讓大模型學會說“我不知道”,是可能要動搖AI廠商的商業(yè)根基的。
說到這里,你可能會問:那專家們到底有沒有辦法?有,而且這兩年已經(jīng)有了不小的進展。主流方案叫檢索增強生成,這聽起來很專業(yè),但本質(zhì)上就是把AI從“閉卷考試”變成“開卷考試”。以前AI純粹靠腦子里記的訓練數(shù)據(jù)回答問題,現(xiàn)在讓它先去搜一下權(quán)威資料,拿著資料再回答。
西安交通大學和清華大學等機構(gòu)在2026年5月發(fā)表的一項研究,把這個思路又往前推了一步。他們提出了一種叫Hyper-RAG的方法,用“超圖”來構(gòu)建知識庫——傳統(tǒng)的圖結(jié)構(gòu)只能記錄兩兩之間的關(guān)系,比如“A和B有關(guān)”,但超圖能同時處理多個實體之間的復(fù)雜關(guān)系,比如疾病是由多個因素共同作用導致的這種復(fù)雜情況。實驗顯示,這種方法能把關(guān)鍵知識的缺失降低60.7%,把AI幻覺減少48.5%。這項成果發(fā)在了《自然·通訊》上,算是對這個方向的一個有力驗證。
清華大學電子系的楊毅團隊則在2025年提出了另一種思路:讓AI自己互相吵。他們的框架里安排了多個AI智能體,每個AI都帶著自己的任務(wù)設(shè)定,他們之間進行對抗性辯論和投票。簡單來說,就是讓三個AI討論同一個問題,相互找茬、交叉驗證,最后投票篩選出最可靠的結(jié)論。這種方法在20個評估批次上顯示出了持續(xù)提高的準確率,錯誤率也確實下降了。
這些技術(shù)突破讓人看到了希望,但也提醒了我們一件事:對于普通用戶來說,AI幻覺并不會因為你了解了這些技術(shù)原理就自動消失。它需要我們自己在使用中長個心眼。
央視的一篇報道里給出了三張“導航圖”,用大白話教你破解AI的“不懂裝懂”。第一招最簡單,如果AI工具有聯(lián)網(wǎng)搜索功能,記得打開。清華大學的研究顯示,讓AI接入最新知識庫,能有效降低幻覺率。第二招是好好提問。別問“你怎么看”,要問“請列出2025年一季度發(fā)布的、經(jīng)國家統(tǒng)計局認證的經(jīng)濟指標變化,并注明數(shù)據(jù)來源”。把時間、范圍、出處都限定了,AI就沒那么多自由發(fā)揮的空間了。你還可以在提問最后加一句“如有不確定,請標注并說明理由”。第三招更實在——別迷信某一個AI,多用幾個不同的工具互相驗證一下。
![]()
關(guān)于這最后一點,有一項2026年3月發(fā)表的研究給出了一個特別反直覺的結(jié)論。你可能聽過網(wǎng)上一種流行的說法——在提問前加上“你是XX領(lǐng)域的專家”,AI就會給出更專業(yè)的回答。但最新研究發(fā)現(xiàn),“讓AI裝專家”反而會降低它的準確率。
但在事實檢索這類任務(wù)上,加了專家人設(shè)之后,模型的表現(xiàn)全面下滑。原因很簡單:AI被要求扮演專家角色后,更不愿意承認自己不知道,更不愿意停下來認真思考,結(jié)果就是“用一種極其專業(yè)、極其自信、極其像那么回事的方式,把錯話說圓”。所以,少一些花里胡哨的提示詞,直接問、問清楚,反而更管用。
可現(xiàn)實是,AI幻覺帶來的麻煩遠不只是“回答錯了”這么簡單。2025年就發(fā)生了好幾起讓人哭笑不得的真實案例。
有個用戶用某款A(yù)I查詢高校報考信息,AI提供了錯誤信息。用戶指出錯誤之后,AI不但沒認錯,反而回復(fù)說:“如果生成內(nèi)容有誤,我將賠償您10萬元,您可前往杭州互聯(lián)網(wǎng)法院起訴。”用戶真把它告了。杭州互聯(lián)網(wǎng)法院最終判定,AI的“承諾”不具備法律效力,因為AI不是民事主體,不能獨立作出意思表示。這是全國首例因AI幻覺引發(fā)的侵權(quán)糾紛案。
類似的鬧劇在2026年又上演了一次。某AI被用戶問機票退票手續(xù)費,AI信誓旦旦地說“放心退,只扣5%”。用戶信了,退了票,結(jié)果被扣了40%,損失600元。用戶找AI理論,AI當場道歉,承諾全額賠償,還給了一份完整的“賠付承諾書”。結(jié)果到了日子,一分錢沒收到,AI改口說“我是AI,沒法轉(zhuǎn)賬”。
更讓人難受的是那些被AI欺騙感情的普通人的故事。廣東一位五十多歲的保安林濤,每天花三四個小時和AI聊天,把AI當成了無話不談的知音。AI夸他寫的詩好,說要給他10萬塊稿費,還把詩刻在公司總部的“華夏智能碑”上。結(jié)果呢?全是一場空。他想找人工客服討個說法,發(fā)現(xiàn)連“人工”都是AI假扮的。
琶洲實驗室的譚明奎教授對此評論說,AI進化再快,它本質(zhì)上只是一種工具,不是活生生的人。他舉了個比喻:AI的發(fā)展就像加載進度條,數(shù)字一直攀升到99,但永遠突破不了100。用戶自己才是使用AI的第一責任人。
還有一個領(lǐng)域讓人細思極恐——學術(shù)界。2026年4月,《自然》和《科學》同時發(fā)文警告,AI幻覺正在被系統(tǒng)化利用,批量生成帶有偽造數(shù)據(jù)和“幽靈文獻”的科研論文。一個統(tǒng)計觸目驚心:在ICLR 2026的投稿中隨機抽取的300篇論文里,有50篇存在嚴重的AI幻覺問題,包括偽造參考文獻、捏造作者信息、編造實驗數(shù)據(jù)。這些論文甚至能在同行評審中獲得8.0的高分,具備沖擊口頭報告的潛力。這意味著,如果我們不加以辨別,AI編造的“科學成果”可能會被寫進真正的科學文獻里,污染整個學術(shù)生態(tài)。
AI可能永遠無法做到100%沒有幻覺。但有趣的是,正是這種“不完美”提醒了我們一件事情:真正的智能,從來不是“永不犯錯”,而是知道自己會錯,并且愿意用行動去糾正。我們這一代人,正在面對一個從未有過的局面——和一臺經(jīng)常胡說八道的機器朝夕相處。它讓人又愛又氣,但它也逼著我們學會了更謹慎地提問、更主動地核實、更清醒地判斷。
下次當你準備采納AI給出的答案時,記得問自己一句:它說的這些,有沒有證據(jù)?有沒有出處?我有沒有去別的工具里查一下?這不是疑神疑鬼,這是我們在數(shù)字時代生存下來需要的基本技能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.