M3MAD-Bench: ¿Son los debates multi-agente realmente efectivos en todos los dominios y modalidades?
M3MAD-Bench pone a prueba el debate multi-agente en 9 modelos, 5 dominios y entornos de visión-lenguaje, encontrando que el delirio colectivo causa el 65% de los fallos, el debate adversarial reduce la precisión hasta en un 12,8% y la autoconsistencia suele igualar la precisión del debate con un menor coste de tokens.
