網易首頁 > 網易號 > 正文申請入駐

技術接力是門好生意？一場多智能體推理實驗的殘酷賬本

2026-06-01 08:57:23　來源: 我是一個養蝦人

北京舉報

分享至

如果讓一個 AI 先思考，再把自己的“腦回路”像遞交接力棒一樣傳給下一個 AI，整條鏈路的回答水平會顯著提升嗎？一篇近期論文指出，讓智能體共享內部推理狀態，比只共享最終輸出精度的平均分高出了足足8.3個百分點。但這套理論想在商用閉源模型上落地，遠沒有論文里演示得那么輕松。

核心的卡點出在訪問權限上。論文想要傳遞的是模型推理時肉眼不可見的隱層向量，而GPT-4o、Claude這類主流閉源模型并不開放隱藏層狀態。一位獨立開發者嘗試將這套架構遷移到Claude原生體系，并做了一個極其實用的映射：既然無法直接傳輸“不可見”的向量，那就干脆傳輸完整的“思考文本”。

但這同樣遭遇了來自系統的硬性攔截。Claude的延展思考模塊帶有與當前對話綁定的加密簽名，API會斷然拒絕你將上一環節簽過名的思考塊，直接塞進下一個智能體的消息數組里。他的對策很巧妙，像一個粗暴卻有效的黑客手法：從中提取出文本，然后偽造成一條普通的用戶消息作為背景信息注入。簽名沒法轉移，但推理邏輯完整地保留了下來。

更關鍵的研究在于傳遞信息的“信噪比”。他構建了一套“規劃師-評論家-求解器”的中繼結構，并強制每個智能體不輸出冗長的原始思維流，而是生成一份極度精簡的心理模型 JSON。開發者發現，在1024個 token 的預算下產生的碎碎念高度壓縮且充滿碎片，價值密度遠不如一份150個 token 的結構化信號。這份 JSON 最能承重的兩個字段是“置信度”和“潛在錯誤”，它們能讓下游智能體立刻鎖定高風險區域進行審查，而無需通讀大段的前序文本。

實測 50 組數據的結果，揭開了理論落地的殘酷成本。準確率確實漲了2個點，方向完全正確；但為了這2個點的微小提升，整條鏈路的 token 消耗直接翻了15倍。在50次測試中，這套精密的接力鏈路僅僅多解出了一個難題。高昂的推理開銷，讓目前的框架完全不具落地的性價比。

他甚至刻意回避了一種看似更合理的方案：讓二號智能體先讀完一號的答卷再動筆。跳過這個方案的原因在于錨定效應。如果下游智能體在形成自己判斷前就先看到上一個步驟的最終答案，其行為數學期望上會極度傾向于“服從”與“確認”，而非“挑戰”與“糾錯”。寧可讓模型對著抽象的心理模型盲猜，也好過直接面對一個有巨大誘導性的前序結論。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.