M3MAD-Bench : Les débats multi-agents sont-ils réellement efficaces à travers les domaines et les modalités ?
M3MAD-Bench met à l'épreuve le débat multi-agent sur 9 modèles, 5 domaines et des configurations vision-langage, révélant que le délire collectif cause 65 % des échecs, que le débat contradictoire réduit la précision jusqu'à 12,8 % et que l'auto-cohérence égale généralement la précision du débat à un coût en jetons inférieur.
