周一的體育編輯部里,USA Today的編輯們大概是閑得發慌,決定給微軟的Copilot出道考題——讓它預測當天四場世界杯比賽的結果。
四場比賽,Copilot給出了四種不同的比分預測:西班牙對佛得角3比0、比利時對埃及2比1、烏拉圭對沙特阿拉伯2比1、伊朗對新西蘭1比0。猜得挺像那么回事的,但你往下看實際結果會發現,這AI完美避開了所有正確答案。
![]()
現實打了所有人的臉。四場比賽全部以平局收場,而Copilot在分析時壓根就沒考慮過平局這種可能性。比利時和埃及1比1握手言和,烏拉圭和沙特也是1比1,伊朗和新西蘭互相進球踢成2比2。最狠的打臉來自佛得角,他們的守門員若西馬爾·迪亞斯——現在網上都叫他“沃濟尼亞”——高接抵擋撲到頭皮發麻,硬是把西班牙這支頂級強隊拖進了一個0比0的平局。
USA Today記錄了Copilot當時的推理過程,挺能說明問題的。這個AI模型判斷,西班牙的鋒線會對著佛得角漏洞百出的防線狂轟濫炸,射門多到對方遲早扛不住,從而暴露出這場較量原本就不在一個量級上。西班牙后來吃了虧才明白,這種預測反映的可能不是經過推敲的分析,而是Copilot吞進去的那種流量媒體炒作套路。
不過微軟家的AI不是唯一吃紅牌的選手。這個月早些時候,有記者拿ChatGPT預測NBA總決賽,問紐約尼克斯和圣安東尼奧馬刺誰能奪冠。雖然尼克斯在周末用一場蕩氣回腸的第五戰拿下了2026年總冠軍,ChatGPT當初押的可是馬刺,還信誓旦旦地說圣安東尼奧的超級巨星維克托·文班亞馬會把系列賽拖進搶七。
這些翻車現場背后,有一項重磅的預印本研究給出了解釋。研究者發現,像ChatGPT和Copilot這樣的大語言模型,在預測體育比賽結果這件事上裝備差得驚人,即便是分析已經發生過的重要回合和整場比賽,表現同樣糟糕。
在一個專門設計的測試里,研究人員讓頂尖AI模型去預測多個時長在3分鐘到15分鐘之間的比賽片段結果。表現最好的模型,準確率也只有43%。這說明大語言模型在預測真實世界結果時存在嚴重的性能缺口,即便是在足球比賽這種變量相對可控的環境里也不行。研究者寫得很直白:“人類整體準確率是58.9%,而且預測的置信度始終合理,AI模型們則完全不是這么回事。”
幾件事疊在一起看,結論很清楚:大語言模型的球商還差得遠。對那些指望靠世界杯猜幾把冷門發筆小財的人來說,這當然是壞消息。但對于一個已經燒了數千億美元試圖把大語言模型變成復雜推理引擎的科技行業,這背后的麻煩比賭輸幾場比賽要嚴重得多。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.