用GPT-4o提取采購訂單表格，結(jié)果編號全錯(cuò)了？

2026-05-31 02:21:36　來源: 薛定諤的BUG

北京舉報(bào)

分享至

同一份掃描版采購訂單，為什么布局識(shí)別全對，物料編號卻錯(cuò)得離譜？如果你正準(zhǔn)備把發(fā)票錄入系統(tǒng)、用合同表格跑自動(dòng)化流程，這場實(shí)測可能會(huì)讓你重新考慮技術(shù)路線。

2026年4月，LlamaIndex發(fā)布了一項(xiàng)名為ParseBench的文檔解析基準(zhǔn)測試，結(jié)論很吸引人：只要提示詞設(shè)計(jì)得當(dāng)，視覺語言模型在版面復(fù)雜的文檔上能吊打傳統(tǒng)OCR。消息一出，很多人覺得該立刻切到Gemini 3 Flash或者GPT-4o，用帶跨行跨列表格的HTML提示詞來解析PDF。我拿一份雜亂的2頁采購訂單實(shí)地跑了一遍，結(jié)果和媒體標(biāo)題寫的不太一樣。

你可以把這理解為一次“一圖讀懂”式的核心拆解：先把PDF表格提取這件事的底層邏輯鋪開，再逐層對比基準(zhǔn)測試?yán)锏母叻旨记伞?shí)打?qū)嵉姆嚞F(xiàn)場，最后聊聊當(dāng)模型從像素里“猜”編號時(shí)，究竟哪里會(huì)出問題。

先看這張?zhí)摂M圖——左邊是掃描件上密密麻麻的物料編號、公差數(shù)字、跨頁拆分項(xiàng)；中間是視覺語言模型讀圖后生成的HTML表格，表頭層級正確、合并單元格一個(gè)不落；右邊同一份輸出里，物料編號悄悄變了幾個(gè)字符，公差毫米值憑空少了三位數(shù)。這就是整個(gè)故事的主干。

拆解第一層：任務(wù)到底難在哪兒？你的發(fā)票系統(tǒng)要讀取掃描的采購訂單，會(huì)計(jì)平臺(tái)里躺著跨頁表格的合同。這些PDF里的文字必須變成結(jié)構(gòu)化數(shù)據(jù)，而不是一整面字墻，否則下游代碼根本沒法動(dòng)。傳統(tǒng)的專用解析器，比如AWS Textract、Google DocAI或者Azure文檔智能，在面對嵌套表頭、合并單元格、頁碼間被切分的行時(shí)，常常需要大量的后處理規(guī)則。基準(zhǔn)測試?yán)铮@些工具的得分在47.9到59.6之間，確實(shí)不夠看。

第二層，ParseBench到底測出了什么？它對比了14種解析方法，發(fā)現(xiàn)提示詞設(shè)計(jì)比模型大小重要得多。LlamaParse Agentic的方式拿到了84.9分，Gemini 3 Flash是71分，一下就把專用解析器甩開。分?jǐn)?shù)的關(guān)鍵差別在于一個(gè)技巧：要求模型輸出帶colspan和rowspan屬性的HTML表格。這樣一來，合并單元格信息被直接編碼在標(biāo)簽里，而不是靠空格或縮進(jìn)去“暗示”結(jié)構(gòu)。這套提示的落地代碼長這樣：系統(tǒng)提示讓模型“只輸出解析內(nèi)容”，將表格轉(zhuǎn)為使用表格標(biāo)簽的HTML，保留跨列跨行以維持合并單元格和層級表頭。調(diào)用時(shí)，把兩張掃描頁的Base64編碼傳進(jìn)GPT-4o，請求合并被切分的表格。

在我的測試?yán)铮瑹o論是GPT-4o-mini還是完整版GPT-4o，都給出了結(jié)構(gòu)正確的表格。布局這塊確實(shí)撐住了基準(zhǔn)測試的結(jié)論，看起來很美。然而第三層才真正要命：基準(zhǔn)測試沒壓測的地方，恰恰是落地場景的死穴——那些物料編號的逐字符精確度。

我用的這份2頁采購訂單有7個(gè)行項(xiàng)目，帶有重復(fù)出現(xiàn)的收貨地址子表頭，其中第030號物料還被頁分隔符劈成兩半。物料編號像ALRD00882這樣的碼，屬于“輸錯(cuò)一個(gè)就發(fā)錯(cuò)貨”的關(guān)鍵字段。兩個(gè)視覺模型跑出來的結(jié)果里，這些編號全被重新發(fā)明了。GPT-4o-mini生成了看起來合理、但和原文檔對不上的碼；它還把表示公差的“12.700”毫米改寫成了“12,700”，數(shù)量級直接差了三階，又把“3658 mm”看成了“356 mm”。GPT-4o完整版修掉了這些數(shù)字錯(cuò)誤，但物料編號依舊憑空捏造。

這不是提示詞寫得不夠好。這是語言模型從像素生成文字時(shí)的底層行為模式：字母數(shù)字組合的編碼沒有語言學(xué)上的規(guī)律可循，模型會(huì)從自己見過的大量相似排版里抽取代換字符。它不是在“讀”編號，而是在“猜”一個(gè)看起來像編號的東西。對于公差數(shù)值，當(dāng)小數(shù)點(diǎn)被掃描噪點(diǎn)干擾時(shí)，生成過程也會(huì)用最像數(shù)字的序列來填空，結(jié)果就出現(xiàn)離譜的單位錯(cuò)誤。

所以回到那張?zhí)摂M圖：中間的結(jié)構(gòu)化表格是亮眼的84分，但右邊紅框標(biāo)出的出錯(cuò)單元，才是真實(shí)業(yè)務(wù)里的一票否決項(xiàng)。如果你的場景可以容忍編號被近似匹配，或者下游會(huì)用模糊搜索再校驗(yàn)一次，那視覺模型的布局還原能力的確省力；但如果系統(tǒng)要求百分百的標(biāo)識(shí)符一致性，目前這一代直接從像素生成HTML的做法，還是得搭配一個(gè)專門做字符級對齊的OCR通路。

整件事的啟發(fā)其實(shí)很樸素：基準(zhǔn)測試?yán)锏母叻植坏扔谏a(chǎn)環(huán)境的零事故，尤其當(dāng)你的評價(jià)指標(biāo)是“表格結(jié)構(gòu)分”而非“每個(gè)料號的精確匹配率”時(shí)。技術(shù)選型之前，先想清楚自己的真實(shí)容錯(cuò)邊界在哪里，比追新模型重要得多。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.