如果讓一個 AI 先思考,再把自己的“腦回路”像遞交接力棒一樣傳給下一個 AI,整條鏈路的回答水平會顯著提升嗎?一篇近期論文指出,讓智能體共享內部推理狀態,比只共享最終輸出精度的平均分高出了足足8.3個百分點。但這套理論想在商用閉源模型上落地,遠沒有論文里演示得那么輕松。
核心的卡點出在訪問權限上。論文想要傳遞的是模型推理時肉眼不可見的隱層向量,而GPT-4o、Claude這類主流閉源模型并不開放隱藏層狀態。一位獨立開發者嘗試將這套架構遷移到Claude原生體系,并做了一個極其實用的映射:既然無法直接傳輸“不可見”的向量,那就干脆傳輸完整的“思考文本”。
![]()
但這同樣遭遇了來自系統的硬性攔截。Claude的延展思考模塊帶有與當前對話綁定的加密簽名,API會斷然拒絕你將上一環節簽過名的思考塊,直接塞進下一個智能體的消息數組里。他的對策很巧妙,像一個粗暴卻有效的黑客手法:從中提取出文本,然后偽造成一條普通的用戶消息作為背景信息注入。簽名沒法轉移,但推理邏輯完整地保留了下來。
更關鍵的研究在于傳遞信息的“信噪比”。他構建了一套“規劃師-評論家-求解器”的中繼結構,并強制每個智能體不輸出冗長的原始思維流,而是生成一份極度精簡的心理模型 JSON。開發者發現,在1024個 token 的預算下產生的碎碎念高度壓縮且充滿碎片,價值密度遠不如一份150個 token 的結構化信號。這份 JSON 最能承重的兩個字段是“置信度”和“潛在錯誤”,它們能讓下游智能體立刻鎖定高風險區域進行審查,而無需通讀大段的前序文本。
實測 50 組數據的結果,揭開了理論落地的殘酷成本。準確率確實漲了2個點,方向完全正確;但為了這2個點的微小提升,整條鏈路的 token 消耗直接翻了15倍。在50次測試中,這套精密的接力鏈路僅僅多解出了一個難題。高昂的推理開銷,讓目前的框架完全不具落地的性價比。
他甚至刻意回避了一種看似更合理的方案:讓二號智能體先讀完一號的答卷再動筆。跳過這個方案的原因在于錨定效應。如果下游智能體在形成自己判斷前就先看到上一個步驟的最終答案,其行為數學期望上會極度傾向于“服從”與“確認”,而非“挑戰”與“糾錯”。寧可讓模型對著抽象的心理模型盲猜,也好過直接面對一個有巨大誘導性的前序結論。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.