동일한 사고 토큰 예산 하에서 단일 에이전트 LLM이 다중 홉 추론 시 다중 에이전트 시스템보다 우수한 성능을 보임
다중 에이전트 토론 및 가드레일 아키텍처에 대해 여러 로그 항목을 할애한 후, 저는 한 가지 전제를 검증해보고 싶었습니다. 여러 LLM을 오케스트레이션하는 것이 실제로 더 나은 추론을 제공하는지, 아니면 단순히 더 많은 컴퓨팅 자원을 소모하는 것인지에 대해서 말이죠. 스탠퍼드의 Dat Tran과 Douwe Kiela는 2026년 4월에 발표된 프리프린트에서 바로 이 질문을 던졌고, 그 답은 다중 에이전트 복음주의자들에게는 꽤나 불편한 내용이었습니다.
논문 소개
"Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets" (arXiv:2604.02460) 논문은 겉보기엔 단순해 보이지만 중요한 방법론적 지적을 합니다. 거의 모든 다중 에이전트 벤치마크가 단일 에이전트를 훨씬 더 많은 컴퓨팅을 사용하는 다중 에이전트 시스템과 비교한다는 점입니다. 프롬프트와 최종 답변을 제외한 중간 추론 토큰, 즉 "사고 토큰(thinking-token)" 예산을 동일하게 유지하면, 단일 에이전트는 다중 홉 추론 작업에서 다중 에이전트 시스템과 일치하거나 오히려 능가하는 성능을 보입니다.
저자들은 이를 데이터 처리 부등식(Data Processing Inequality, DPI)을 통한 정보 이론적 논거로 설명합니다. 한 에이전트가 다른 에이전트에게 메시지를 전달할 때, 수신 에이전트는 원본 컨텍스트 자체가 아니라 처리된 버전의 컨텍스트를 기반으로 작업하게 됩니다. 이 체인에서 정보는 손실되거나 그대로 유지될 뿐, 결코 생성될 수 없습니다. 따라서 DPI는 다중 에이전트 분해가 피할 수 없는 통신 병목 현상을 유발하며, 단일 에이전트의 효과적인 컨텍스트 활용 능력이 이미 저하된 상태일 때만 다중 에이전트 시스템이 단일 에이전트를 능가할 수 있다고 예측합니다.
핵심 아이디어
- 이 연구는 Qwen3-30B, DeepSeek-R1-Distill-Llama-70B, Gemini 2.5의 세 가지 모델 제품군을 사용하여 100개에서 10,000개 사이의 6가지 토큰 예산 전반에서 중간 추론 토큰인 "사고 토큰"을 통제합니다.
- 평가된 5가지 다중 에이전트 아키텍처는 순차형(sequential), 하위 작업 병렬형(subtask-parallel), 병렬 역할형(parallel-roles), 토론형(debate), 앙상블형(ensemble)입니다.
- 사용된 벤치마크는 FRAMES(여러 소스의 통합이 필요한 824개의 도전적인 다중 홉 질문)와 MuSiQue(4홉 세계 지식 질문)입니다.
- 단일 에이전트 시스템(SAS)은 거의 모든 예산 일치 조건에서 가장 높거나 통계적으로 대등한 정확도를 달성했습니다. SAS의 정확도는 예산에 따라 0.280–0.427 범위였으며, 비교 가능한 다중 에이전트(MAS) 변형은 평균 0.280–0.420을 기록했습니다.
- MAS의 전형적인 실패 모드는 과잉 탐색과 이탈(drift)입니다. 에이전트들이 가지치기 없이 하위 질문을 탐색하다가 원래의 쿼리를 놓치게 됩니다. 반면 SAS는 원래 질문에 대한 더 강력한 어휘적 고정(lexical anchoring)을 유지합니다.
- DPI 예측은 실증적으로 유효함이 입증되었습니다. 컨텍스트가 심하게 저하된 경우(α=0.7에서 마스킹 또는 대체)에만 다중 에이전트 시스템이 경쟁력을 갖게 되었습니다.
유효한 점과 그렇지 않은 점
핵심 방법론은 올바른 방향입니다. 컴퓨팅 자원이 일정하게 유지되는 경우가 드물기 때문에 다중 에이전트 벤치마크에는 재현성 문제가 있으며, 사고 예산을 맞추려는 저자들의 주장은 진정한 기여라고 볼 수 있습니다. DPI 프레임워크는 깔끔하며, 컨텍스트 활용이 무너질 때 MAS가 도움이 된다는 실험적 예측이 세 가지 모델 제품군에서 검증되어 신뢰성을 더합니다.
하지만 몇 가지 간극도 존재합니다. 이 논문은 텍스트 기반의 다중 홉 추론만을 평가합니다. 도구 사용(tool use), 코드 실행, 시각적 작업은 명시적으로 제외되었습니다. 이러한 제외는 매우 중요한데, 실제로 배포되는 대부분의 프로덕션 다중 에이전트 시스템은 순수 텍스트 QA를 수행하는 것이 아니라 에이전트 간에 도구 호출, API 조회 또는 코드 인터프리터를 오케스트레이션하기 때문입니다. 에이전트 간 메시지 전달에 대한 DPI 논거는 이론적으로 이러한 설정에도 적용될 수 있지만, 실증적인 주장은 아직 검증되지 않았습니다.
Gemini 토큰 예산 제어는 근사치로 인정되었습니다. 표준 단일 에이전트 모드에서 Gemini의 사고 채널이 충분히 활용되지 않는 것으로 보여, 저자들은 구조화된 프롬프팅을 사용하는 특수한 SAS-L 변형을 개발했습니다. 이는 면밀히 살펴볼 가치가 있는 혼란 변수입니다. 세 모델 제품군 중 하나라도 사고 토큰 산정이 신뢰할 수 없다면, 예산 균등화 주장을 해석하기가 더 어려워지기 때문입니다.
두 개의 벤치마크만으로 일반적인 아키텍처 주장을 펼치기에는 데이터가 다소 부족합니다. FRAMES는 질문이 824개에 불과하며, MuSiQue는 표준 벤치마크이긴 하지만 다중 홉 구조의 전체 다양성을 다루지는 못합니다. 또한 모델 성능이 확장됨에 따라 단일 대 다중 에이전트의 격차가 어떻게 변하는지도 다루지 않았습니다. 이 결과가 근본적인 아키텍처의 발견이라기보다는 현재 모델 크기의 특성일 가능성도 있습니다.
금융 AI에 미치는 영향
Beancount Labs와의 연결 고리는 실제적이지만 정밀한 접근이 필요합니다. Beancount 기록 에이전트의 경우, 제가 가장 관심을 갖는 아키텍처는 작성자-검증자(writer-verifier) 쌍입니다. 한 에이전트가 장부 항목을 생성하고, 다른 에이전트가 이를 확정하기 전에 정책 준수 여부를 확인하는 방식입니다. 이는 다중 홉 텍스트 QA가 아니라 검증자가 동일한 원본 컨텍스트를 재처리하는 것이 아니라 제안된 결과물을 검토하는 순차적 도구 사용 파이프라인입니다. DPI 논거는 느슨하게 적용될 수 있습니다. 제안된 항목을 바탕으로 작업하는 별도의 검증 에이전트는 작성자가 버린 사실을 복구할 수 없습니다. 하지만 실제 병목 현상은 메시지 간의 정보 손실보다는 정책 규칙의 상기(recall)와 산술적 정확성에 있습니다.
이 논문이 더 직접적으로 타격하는 지점은 이전 로그(Du et al., M3MAD-Bench)에서 다룬 토론 아키텍처입니다. 장부 오류를 잡기 위해 토론하는 에이전트 쌍을 사용하는 것이 목표이고, 두 에이전트의 총 사고 예산이 확장된 추론을 사용하는 단일 에이전트의 예산과 같다면, 여기서 제시된 증거는 단일 에이전트 접근 방식이 더 신뢰할 수 있음을 시사합니다. MAS가 컨텍스트가 심하게 저하된 경우에만 경쟁력이 있다는 발견도 중요합니다. 컨텍스트가 깨끗하고 잘 형성된 Beancount 항목의 경우 단일 에이전트의 이점이 유지되어야 합니다.
실질적인 교훈은 컨텍스트 활용이 병목 현상이라는 구체적인 이유가 없는 한 다중 에이전트의 복잡성을 경계해야 한다는 것입니다. 대부분의 장부 QA 작업에서 컨텍스트 활용은 아마도 병목이 아닐 것입니다.
다음 읽을거리
- Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.04692) — 이 논문이 가장 직접적으로 도전하는 AlpacaEval 주장을 담은 논문입니다. 어떤 예산 가정을 했는지 이해하기 위해 읽어볼 가치가 있습니다.
- "Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key?" (arXiv:2402.18272, ACL 2024) — 본질적으로 동일한 발견을 담은 초기 버전의 논문입니다. 좋은 프롬프트를 가진 단일 에이전트가 다중 에이전트 토론과 대등하다는 점을 보여주며, 비판이 어떻게 진화했는지 확인하는 데 유용합니다.
- 테스트 시 컴퓨팅 확장(Test-time compute scaling) 문헌 (DeepSeek-R1, OpenAI o1 시스템 카드) — 추가적인 추론 컴퓨팅이 실제로 어디에서 도움이 되는지에 대한 더 넓은 질문이며, 단일 모델 내에서 확장된 생각의 사슬(chain-of-thought)이 더 강력한 해답일 수 있습니다.
