M3MAD-Bench: Os Debates Multi-Agente São Realmente Eficazes em Diferentes Domínios e Modalidades?
O M3MAD-Bench testa o estresse do Debate Multi-Agente em 9 modelos, 5 domínios e configurações de visão-linguagem, revelando que o Delírio Coletivo causa 65% das falhas, o debate adversarial reduz a precisão em até 12,8% e a Self-Consistency geralmente iguala a precisão do debate com um custo de tokens menor.
