網易首頁 > 網易號 > 正文申請入駐

【人工智能】多智能體悖論：為什么更多的AI Agent反而會導致更糟糕的結果

2025-12-24 18:41:59　來源: 七元宇宙

廣東舉報

分享至

在過去兩年中的大部分時間里，多智能體系統一直被視為人工智能發展的必然趨勢。如果一個大型語言模型能夠進行推理、規劃和行動，那么多個模型協同工作應該會表現得更好。這種理念推動了智能體團隊在編碼、研究、金融和工作流程自動化等領域的興起。但新的研究揭示了一個反直覺的悖論：向系統中添加更多智能體并不總是能帶來更好的性能。相反，它會使系統運行速度變慢、成本更高、準確性更低。這種現象，我們稱之為“多智能體悖論”，表明更多的協調、更多的通信和更多的推理單元并不總是能帶來更強的智能。相反，添加更多智能體會引入新的故障模式，其弊端甚至超過了帶來的益處。理解這一悖論至關重要，因為智能體系統正迅速從演示階段走向實際部署。構建人工智能產品的團隊需要明確的指導，以了解協作何時有益，何時有害。在本文中，我們將探討為什么更多的智能體反而會導致更差的結果，以及這對基于智能體的人工智能系統的未來意味著什么。

多智能體系統為何如此受歡迎

多智能體系統的概念源于人類團隊協作的方式。面對復雜問題時，工作會被分解成多個部分，由專家負責各自的任務，然后將他們的成果整合起來。早期實驗也支持這種方法。在諸如數學問題或代碼生成等靜態任務上，多個智能體通過討論或投票的方式，通常比單個模型表現更佳。

然而，這些早期成功案例大多源于無法反映真實部署環境的任務。它們通常涉及簡短的推理鏈、與外部系統的有限交互以及沒有動態變化的靜態環境。當智能體在需要持續交互、適應和長期規劃的環境中運行時，情況會發生顯著變化。此外，隨著工具的進步，智能體獲得了瀏覽網頁、調用API、編寫和執行代碼以及隨時間更新計劃的能力。這使得向系統中添加更多智能體變得越來越誘人。

主動任務與靜態任務不同

必須認識到，智能體任務與靜態推理任務有著本質區別。靜態任務可以一次性解決：模型被賦予一個問題，給出答案，然后停止。在這種情況下，多個智能體像一個集成學習系統一樣運作，簡單的策略（例如多數投票）往往能產生更好的結果。

相比之下，智能體系統運行的環境截然不同。它們需要與環境反復交互，智能體必須探索、觀察結果、更新計劃并再次行動。例如，網頁導航、財務分析、軟件調試以及模擬世界中的戰略規劃。在這些任務中，每一步都依賴于前一步，因此整個過程本質上是順序性的，并且對之前的錯誤高度敏感。

在這種情況下，多個主體犯的錯誤不會像在群體智能中那樣相互抵消，而是會不斷累積。流程早期的一個錯誤假設就可能導致后續所有步驟的失敗，而且當涉及多個主體時，這些錯誤會迅速在系統中蔓延。

協調工作是要付出代價的

任何多智能體系統都需要付出協調成本。智能體必須共享發現、協調目標并整合部分結果。這個過程絕非沒有代價。它會消耗代幣、時間和認知帶寬，并且隨著智能體數量的增長，很快就會成為瓶頸。

在計算預算固定的情況下，這種協調成本尤為關鍵。如果四個智能體共享與一個智能體相同的總預算，那么每個智能體進行深度推理的能力就會降低。系統可能還需要將復雜的思路壓縮成簡短的摘要以便交流，而在這個過程中，它可能會丟失重要的細節，從而進一步削弱系統的整體性能。

這造成了多樣性和一致性之間的權衡。單智能體系統將所有推理過程集中在一個地方，并在整個任務過程中保持內部狀態的一致性。多智能體系統提供了多樣化的視角，但代價是上下文的碎片化。隨著任務變得更加順序化和狀態依賴性增強，這種碎片化就成為一個關鍵的弱點，其弊端往往會超過多智能體帶來的優勢。

當更多Agent積極損害績效時

近期的對照研究表明，在順序規劃任務中，多智能體系統通常不如單智能體系統。在每個動作都會改變狀態并影響未來選項的環境中，智能體之間的協調會中斷它們的推理，減慢進度，并增加錯誤累積的風險。當智能體并行運行且彼此之間沒有通信時，這種情況尤為突出。在這種情況下，智能體的錯誤得不到糾正，當結果合并時，錯誤只會累積而不是被糾正。

即使是結構化協調的系統也無法避免故障。集中式系統配備專用協調器有助于控制錯誤，但同時也引入了延遲和瓶頸。協調器成為一個壓縮點，將復雜的推理過程簡化為概要信息。這往往會導致在長時間的交互式任務中做出比單一、專注的推理循環更錯誤的決策。這就是多智能體悖論的核心：協作引入了單智能體系統中不存在的新型故障模式。

為什么有些任務仍然適合多個Agent執行

這個悖論并非意味著多智能體系統毫無用處，而是強調了它們的優勢是有條件的。當任務能夠被清晰地分解成并行且獨立的子任務時，這些系統最為有效。財務分析就是一個例子。在這個任務中，可以使用一個智能體來分析收入趨勢，另一個智能體來檢查成本，第三個智能體來比較競爭對手。這些子任務在很大程度上是獨立的，它們的輸出無需精心協調即可合并。在這種情況下，集中協調往往能帶來更好的結果。動態網頁瀏覽是另一個多個智能體獨立工作的例子。當任務涉及同時探索多條信息路徑時，并行探索就顯得尤為重要。

關鍵在于，多智能體系統在任務可以分解成無需緊密協調的獨立部分時效果最佳。對于涉及逐步推理或仔細跟蹤變化條件的任務，單個專注的智能體通常表現更佳。

能力天花板效應

另一項重要發現是，更強大的基礎模型可以減少協調的需求。隨著單個智能體能力的提升，增加智能體數量帶來的潛在收益會逐漸減少。超過一定的性能水平后，增加智能體往往會導致收益遞減，甚至產生更糟糕的結果。

這是因為協調成本大致保持不變，而收益卻在下降。當單個智能體已經能夠處理大部分任務時，增加智能體反而會增加干擾而非價值。實際上，這意味著多智能體系統更適用于較弱的模型，而對于前沿模型則效果較差。

這挑戰了模型智能會隨著智能體數量的增加而自然擴展的假設。在許多情況下，改進核心模型比在其周圍添加更多智能體更能帶來更好的結果。

誤差放大是隱藏的風險

近期研究最重要的發現之一是多智能體系統中誤差的放大機制。在多步驟任務中，早期的一個錯誤可能會貫穿整個過程。當多個智能體依賴于共同的假設時，誤差傳播速度更快，也更難控制。

獨立Agent尤其容易受到這個問題的影響。由于缺乏內置驗證機制，錯誤的結論可能會反復出現并相互強化，從而造成一種虛假的自信。集中式系統通過增加驗證步驟來降低這種風險，但無法完全消除。

相比之下，單個智能體通常具有一種內在優勢。由于所有推理都在單一上下文中進行，因此矛盾更容易被發現和糾正。這種微妙的自我糾正能力非常強大，但在評估多智能體系統時卻常常被忽視。

最后

多智能體悖論的關鍵教訓并非避免合作，而是要更有選擇性地合作。問題不應該是使用多少智能體，而是合作對于完成任務是否合理。

具有強順序依賴性的任務通常更適合單個智能體，而具有并行結構的任務則可以從小型、協調良好的團隊中獲益。工具密集型任務需要精心規劃，因為協調本身會消耗原本可以用于執行任務的資源。最重要的是，智能體架構的選擇應以可衡量的任務屬性為指導，而非憑直覺。在實現有效結果方面，可分解性、容錯性和交互深度等因素比團隊規模更為重要。

免責聲明：

本文所發布的內容和圖片旨在傳播行業信息，版權歸原作者所有，非商業用途。如有侵權，請與我們聯系刪除。所有信息不構成任何投資建議，加密市場具有高度風險，投資者應基于自身判斷和謹慎評估做出決策。投資有風險，入市需謹慎。

設為星標避免錯過

虛擬世界沒有旁觀者，每個點贊都是創造歷史的像素

關注我，一起探索AWM?

2025-12-10

2025-12-09

2025-12-08

商業贊助

點擊下方 “目錄” 閱讀更多

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.