M3MAD-Bench: 멀티 에이전트 토론은 도메인과 모달리티 전반에서 정말로 효과적인가?
M3MAD-Bench는 9개 모델, 5개 도메인, 시각-언어 설정을 아우르며 멀티 에이전트 토론을 스트레스 테스트합니다. 연구 결과 실패 사례의 65%가 '집단적 망상'으로 인해 발생하며, 적대적 토론은 정확도를 최대 12.8%까지 떨어뜨리고, 자기 일관성(Self-Consistency)은 일반적으로 더 적은 토큰 비용으로 토론과 대등한 정확도를 제공한다는 점을 발견했습니다.
