M3MAD-Bench: Sind Multi-Agenten-Debatten über Domänen und Modalitäten hinweg wirklich effektiv?
M3MAD-Bench unterzieht Multi-Agenten-Debatten einem Stresstest über 9 Modelle, 5 Domänen und Vision-Language-Szenarien hinweg. Die Studie zeigt, dass kollektive Täuschung 65 % der Fehler verursacht, adversative Debatten die Genauigkeit um bis zu 12,8 % senken und Self-Consistency die Debattengenauigkeit meist bei geringeren Token-Kosten erreicht.
