M3MAD-Bench: Són realment eficaços els debats multiagent en diferents dominis i modalitats?
M3MAD-Bench posa a prova el debat multiagent en 9 models, 5 dominis i entorns de llenguatge visual, i descobreix que el deliri col·lectiu causa el 65% dels errors, el debat adversari redueix la precisió fins a un 12,8% i l'autoconsistència sol igualar la precisió del debat amb un cost de tòquens inferior.
