去年,一篇已發(fā)布文章里一個(gè)被模型憑空捏造的統(tǒng)計(jì)數(shù)據(jù),直接讓我失去了一位客戶的信任。模型當(dāng)時(shí)言之鑿鑿地寫下“73%的小企業(yè)反饋了X”,那個(gè)數(shù)字根本不存在——沒有任何人測量過。客戶比我還先發(fā)現(xiàn)。這個(gè)教訓(xùn)比任何提示工程教程都深刻。此后我跑通了6.3萬篇文章的量產(chǎn)管線,真正讓質(zhì)量躍升的,既不是更強(qiáng)大的模型,也不是更花哨的提示詞,而是一條死命令:模型不準(zhǔn)知道任何它無法引證的東西。
人們習(xí)慣把語言模型的“胡編”當(dāng)作一種缺陷,這有一定的道理,但在內(nèi)容生產(chǎn)線里,它更像一種架構(gòu)選擇。當(dāng)你給出一條指令“寫一篇1500字關(guān)于肽生物利用度的文章”,模型被要求生成關(guān)于該主題的流暢文本。它優(yōu)化的是流暢。至于事實(shí),只不過是從訓(xùn)練數(shù)據(jù)里捎帶出來的副產(chǎn)品,而這些數(shù)據(jù)可能過時(shí)、被平均化,對特定表述甚至根本就是錯(cuò)的。模型沒有信號告訴它“你其實(shí)并不掌握這個(gè)數(shù)字,所以別寫出來”。于是它一頭寫出來,用的還是那種不容置疑的語氣——和它確認(rèn)已知事實(shí)時(shí)一樣。這種自信才是真正危險(xiǎn)的地方。讀者無法憑語氣分辨,一個(gè)數(shù)據(jù)究竟是真實(shí)的,還是杜撰的。
目標(biāo)就不是“讓模型變聰明”,而是收回它自由關(guān)聯(lián)事實(shí)的許可。做法是:先檢索,再動筆。在生成任何內(nèi)容之前,先圍繞主題收集真實(shí)材料。我同時(shí)拉取三種來源,因?yàn)樗鼈儠诓煌沫h(huán)節(jié)失靈:用于獲取當(dāng)前事實(shí)和近期事件的實(shí)時(shí)網(wǎng)絡(luò)搜索;用于確認(rèn)穩(wěn)定實(shí)體和定義的百科類來源;以及用于處理跨頁面推理難題的綜合推理來源。三種來源取長補(bǔ)短,全部經(jīng)過標(biāo)準(zhǔn)化,每一條都有鏈接和真實(shí)文本塊,沒有任何內(nèi)容是生成的。
精簡后的檢索步驟大致是這樣的:用主題和關(guān)鍵詞構(gòu)建最多5個(gè)查詢,然后并行調(diào)用Brave搜索獲取當(dāng)下事實(shí),調(diào)取維基百科條目取得穩(wěn)定實(shí)體,再通過Perplexity Ask獲取帶來源的要點(diǎn)事實(shí)。隨后篩掉缺文本或缺鏈接的條目,每條文本截取前4000個(gè)字符以控制令牌開銷。這樣就得到了一份可溯源的“事實(shí)上下文”。它不給模型留自由發(fā)揮的余地,每一個(gè)將要寫進(jìn)文章的判斷都已預(yù)先寫好在材料里。
最后是驗(yàn)證環(huán)節(jié),專門捕捉那些僥幸溜過去的東西。因?yàn)槊總€(gè)事實(shí)都綁定著原始出處,檢查不再靠品味文筆,而是直接核對文章里的每個(gè)斷言是否都能在材料中找到對應(yīng)語句。哪怕一個(gè)百分比、一個(gè)數(shù)字,都不允許憑空出現(xiàn)。這讓整個(gè)流程從祈禱模型別撒謊,變成了“抓到一個(gè)就立刻踢出去”,質(zhì)量不再是玄學(xué)。
這套模式適用任何大語言模型、任何框架。它沒有靠運(yùn)氣,只靠改變寫作的起點(diǎn):不許從一張白紙讓模型放飛想象,而是先堆好一摞可驗(yàn)證的事實(shí)證據(jù)。6.3萬篇文章跑下來,唯一不變的原則就是:模型只能看菜下飯,那些它本不該知道的數(shù)字和論斷,終于沒有機(jī)會溜進(jìn)正文了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.