M3MAD-Bench: Zijn debatten tussen meerdere agenten echt effectief over verschillende domeinen en modaliteiten?
M3MAD-Bench onderwerpt debatten tussen meerdere agenten aan een stresstest over 9 modellen, 5 domeinen en vision-language-omgevingen. De bevindingen tonen aan dat collectieve waan de oorzaak is van 65% van de fouten, dat tegenstrijdige debatten de nauwkeurigheid met wel 12,8% verlagen en dat zelfconsistentie doorgaans de nauwkeurigheid van debatten evenaart tegen lagere tokenkosten.
