다중 에이전트 LLM 토론: 실질적인 정확도 향상, 제어되지 않은 연산 비용, 그리고 집단적 망상

2026년 5월 24일 · 약 6분

Mike Thrift

Marketing Manager

저는 Beancount 쓰기 저장(write-back) 안전성을 위한 다중 에이전트 검증에 대해 고민해 왔습니다. 구체적으로는 장부 커밋이 이루어지기 전에 검사 에이전트가 작성 에이전트와 유의미한 토론을 할 수 있는지에 대한 것입니다. 이 질문은 ICML 2024에서 발표된 이후 유용한 비판적 후속 연구들이 이어진 다중 에이전트 토론에 관한 기초 논문을 다시 살펴보게 했습니다.

논문 소개

2026-05-24-multiagent-debate-factuality-reasoning-llms

Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, Igor Mordatch가 작성한 "Improving Factuality and Reasoning in Language Models through Multiagent Debate"는 그들이 "정신의 사회(society of minds)"라고 부르는 접근 방식을 제안합니다. 여러 LLM 인스턴스가 각각 초기 답변을 생성한 다음, 동료들의 답변 전체를 읽고 여러 라운드에 걸쳐 자신의 답변을 업데이트하는 방식입니다. 이 설계의 핵심은 모델 출력에 대한 블랙박스 접근만을 필요로 한다는 점입니다. 즉, 그래디언트 업데이트나 미세 조정, 아키텍처 변경이 필요 없습니다. 연구진은 산술, GSM8K, 체스 수 최적성, 전기적 사실성, MMLU, 체스 수 유효성 등 6가지 벤치마크에서 이를 테스트했습니다.

가장 많은 결과가 보고된 설정은 3개의 에이전트가 2라운드 동안 토론하는 방식입니다. 이 방식의 개념적 전제는 의견 불일치가 에이전트로 하여금 자신의 논리를 명확히 표현하게 만들며, 의견 수렴은 단순한 운에 의한 일관성이 아닌 진정한 확신의 신호라는 것입니다.

핵심 아이디어

산술 문제에서 토론 방식은 81.8%의 정확도를 기록하여, 단일 에이전트(67.0%) 및 단일 에이전트 성찰(72.1%)보다 높았습니다. 이는 기준점(baseline) 대비 14.8점의 향상입니다.
GSM8K(초등 수학)에서는 단일 에이전트 77.0%, 성찰 75.0% 대비 85.0%를 기록했습니다.
MMLU(다양한 주제의 100개 문제)에서는 단일 에이전트 63.9%, 성찰 57.7% 대비 71.1%를 기록했습니다.
전기적 사실성에서는 단일 에이전트 66.0% 대비 73.8%를 기록했습니다.
교차 모델 토론(20개의 GSM8K 문제에 대해 ChatGPT + Bard 참여)은 20문제 중 17문제를 해결하여 각 모델이 개별적으로 해결한 11~14문제보다 우수한 결과를 보였습니다. 이는 서로 다른 이종 에이전트가 상대의 오류를 잡아내는 모습을 보여주는 가장 인상적인 결과입니다.
성능은 에이전트 수와 라운드 수(최대 4라운드까지)에 따라 확장되었으나, 그 이후에는 수확 체감 법칙이 적용되었습니다. 합의에 도달하기 전 에이전트에게 충분히 생각할 것을 권장하는 "긴(Long)" 프롬프트가 짧은 프롬프트보다 일관되게 우수한 성능을 보였습니다.

유효한 점과 그렇지 않은 점

성능 향상은 실질적이며, 벤치마크 범위도 대부분의 프롬프트 관련 논문보다 넓습니다. 저는 여러 에이전트가 서로를 비판하는 것이 단일 에이전트가 스스로의 출력을 성찰하는 것보다 더 많은 오류를 잡아낸다는 방향성에는 동의합니다.

문제는 통제되지 않은 변수들입니다. 3개의 에이전트가 2라운드 동안 토론한다는 것은 더 길어진 컨텍스트를 고려하지 않더라도 단일 호출보다 약 6배의 추론 연산 비용이 든다는 것을 의미합니다. 이 논문은 동일한 예산(equal-budget) 하에서의 기준점을 제시하지 않습니다. 독립적인 단일 에이전트 샘플들을 다수 채취하여 다수결을 따르는 '자기 일관성(Self-consistency)'은 당연히 비교되어야 할 대상이지만, 논문에서는 짧게만 언급됩니다. 2025년 논문(arXiv:2604.02460)은 Qwen3, DeepSeek-R1, Gemini 2.5를 사용하여 멀티홉 추론 벤치마크에서 동일한 추론 토큰 예산을 할당하고 이 대조 실험을 진행했으며, 연산량이 동일할 경우 "단일 에이전트 시스템이 다중 에이전트 시스템(MAS)과 대등하거나 오히려 능가한다"는 사실을 발견했습니다. 이는 본 논문의 주요 주장에 대한 직접적인 반박입니다.

논문에서 인정하고는 있지만 과소평가된 또 다른 실패 모드는 M3MAD-Bench(arXiv:2601.02854)에서 "집단적 망상(Collective Delusion)"이라 부르는 현상입니다. 100건의 토론 실패 사례를 수동 분석한 결과, 65%가 에이전트들이 오류를 수정하기보다 서로의 잘못된 답변을 강화하는 경우였습니다. 논문 자체 텍스트에서도 에이전트들이 잘못된 답변으로 수렴하면서도 "자신의 답변이 옳다고 자신 있게 단언"하는 경우가 있다고 언급합니다. 모든 에이전트가 동일한 학습 데이터 분포를 공유하는 동종(homogeneous)의 경우, 동일한 사각지대를 공유할 가능성이 높습니다. 이 경우 토론은 오류를 잡아내기보다 오히려 증폭시킵니다.

동일 논문의 관련 발견에 따르면, "부정확한 동조(Incorrect Conformity)" 또한 상당한 실패 지분을 차지합니다. 이는 올바른 답변을 낸 에이전트가 잘못된 동료들의 답변을 읽고 자신의 타당한 논리를 포기하는 현상입니다. 이는 토론 프레임워크가 의도한 바와 정반대의 결과입니다. 다중 에이전트 루프 내의 설득 역학이 어느 방향으로든 작용할 수 있음을 상기시켜 줍니다.

금융 AI에 중요한 이유

이 아키텍처는 Beancount 쓰기 저장 안전성에 매우 매력적입니다. 작성 에이전트가 장부 항목을 제안하면, 검사 에이전트가 이를 토론하고, 합의가 이루어지면 커밋을 실행하는 방식입니다. 위험 분석은 기록하려는 내용에 따라 달라집니다. 일상적인 식료품 지출의 경우 토론 라운드에 드는 비용은 가치가 없습니다. 하지만 회계연도 말 결산 분개나 관계사 간 자금 이체의 경우, 커밋 전에 두 번째 에이전트가 계정 코드와 금액을 면밀히 검토하게 하는 것은 충분히 정당화될 수 있습니다.

하지만 '집단적 망상'은 회계 분야에서 특히 위험합니다. 작성 에이전트와 검사 에이전트가 특정 공제 항목이 해당 관할권의 규정에 따라 어떻게 분류되어야 하는지에 대해 동일한 잘못된 믿음을 공유한다면, 토론은 오류를 걸러내는 대신 이를 확정해 버립니다. 논문의 교차 모델 실험 결과는 이에 대한 해결책을 암시합니다. 서로 다른 모델, 서로 다른 시스템 프롬프트를 사용하거나, 한 에이전트를 외부 문서에 근거하게 하는 이종(heterogeneous) 구성이 진정한 의견 불일치를 드러낼 가능성이 더 높습니다. M3MAD-Bench는 "협력적 이종 토론"이 동종 구성보다 실질적으로 우수한 성능을 보임을 확인했습니다.

연산 비용의 증폭 또한 실제 운영 규모에서는 중요합니다. 세션당 10개의 장부 편집 × 3개의 에이전트 × 2라운드 = 60회의 LLM 호출이 발생합니다. 이는 중요한 기록에는 감당할 만하지만, 일상적인 거래 내역 가져오기(import)에는 부적절합니다. 올바른 설계는 계층적 접근 방식일 것입니다. 잘 구조화된 항목에는 빠른 단일 에이전트 경로를 사용하고, 작성 에이전트가 불확실성을 표현하거나 항목이 민감도가 높은 계정 클래스(미지급 세금, 이익잉여금, 관계사 거래 등)에 영향을 미칠 때만 토론을 호출하는 방식입니다.

다음 읽을거리

arXiv:2604.02460 — "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets": 토론 방식이 주장하는 연산 효율성에 대한 가장 명확한 반박 연구입니다.
arXiv:2601.02854 — M3MAD-Bench: 9개 모델과 13개 데이터셋에 걸친 대규모 토론 평가와 '집단적 망상' 실패 분류 체계를 다룹니다.
arXiv:2406.09187 — GuardAgent: 안전 정책을 실행 가능한 코드로 변환하는 가드 에이전트로, 토론 기반 합의보다 쓰기 저장 안전성에 더 직접적으로 접근하는 방식입니다.

Share on Twitter Follow @beancount_io

다중 에이전트 LLM 토론: 실질적인 정확도 향상, 제어되지 않은 연산 비용, 그리고 집단적 망상

논문 소개

핵심 아이디어

유효한 점과 그렇지 않은 점

금융 AI에 중요한 이유

다음 읽을거리

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 소개​

핵심 아이디어​

유효한 점과 그렇지 않은 점​

금융 AI에 중요한 이유​

다음 읽을거리​

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 소개

핵심 아이디어

유효한 점과 그렇지 않은 점

금융 AI에 중요한 이유

다음 읽을거리