思考トークンの予算が同一の場合、シングルエージェントLLMがマルチホップ推論においてマルチエージェントシステムを上回る
マルチエージェント間の議論やガードレール・アーキテクチャについていくつかのログ・エントリを費やした後、私は一つの前提を検証したいと考えました。複数のLLMをオーケストレーションすることは、実際に優れた推論をもたらすのでしょうか、それとも単により多くの計算リソースを浪費しているだけなのでしょうか?スタンフォード大学のDat Tran氏とDouwe Kiela氏は、2026年4月に公開されたプレプリントでまさにこの問いを投げかけており、その回答はマルチエージェントの信奉者にとって不都合なものでした。
論文の内容
「Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets」(arXiv:2604.02460)は、一見単純な方法論的指摘を行っています。ほぼすべてのマルチエージェント・ベンチマークは、単一のエージェントと、大幅に多くの計算量を使用するマルチエージェント・システムを比較しているという点です。思考トークン予算(プロンプトと最終回答を除いた、中間推論トークンの一致)を一定に保つと、マルチホップ推論タスクにおいて、シングルエージェントはマルチエージェント・システムと同等か、あるいはそれを上回る結果を出しました。
著者はこれを、情報処理不等式(Data Processing Inequality: DPI)を用いた情報理論的な議論で枠組み化しています。あるエージェントが別のエージェントにメッセージを渡す際、受け手側のエージェントは元のコンテキストそのものではなく、処理された後のコンテキストを元に作業することになります。その連鎖の中で、情報は失われるか現状維持されるかのどちらかであり、決して増えることはありません。したがってDPIは、マルチエージェントの分解が不可避な通信ボトルネックを導入し、シングルエージェントの有効なコンテキスト活用能力がすでに低下している場合にのみ、マルチエージェント・システムがシングルエージェントを上回ることができると予測します。
主なアイデア
- この研究では、Qwen3-30B、DeepSeek-R1-Distill-Llama-70B、Gemini 2.5の3つのモデルファミリーを使用し、100から10,000トークンまでの6段階のトークン予算にわたって「思考トークン」(中間推論トークンのみ)を制御しました。
- 5つのマルチエージェントアーキテクチャが評価されました:順次(sequential)、サブタスク並列(subtask-parallel)、並列ロール(parallel-roles)、討論(debate)、およびアンサンブル(ensemble)。
- 使用されたベンチマークは、FRAMES(複数のソースからの統合を必要とする824問の難易度の高いマルチホップ問題)とMuSiQue(4ホップの世界知識問題)です。
- ほぼすべての予算一致条件下で、シングルエージェント・システムが最高、あるいは統計的に同等の精度を達成しました。シングルエージェント(SAS)の精度は予算全体で0.280〜0.427の範囲であり、比較可能なマルチエージェント(MAS)のバリアントは平均0.280〜0.420でした。
- MASの特徴的な失敗モードは「過剰な探索と逸脱」です。エージェントは枝刈りを行わずにサブクエリを探索し、元のクエリを見失います。SASは元の質問に対する強力な語彙的アンカーリングを維持します。
- DPIの予測は経験的に裏付けられました。コンテキストが著しく劣化している場合(α=0.7でのマスキングまたは置換)においてのみ、マルチエージェント・システムが競争力を持つようになりました。