M3MAD-Bench: Sú debaty viacerých agentov skutočne efektívne naprieč doménami a modalitami?
M3MAD-Bench záťažovo testuje debatu viacerých agentov na 9 modeloch, 5 doménach a v prostrediach obraz-jazyk. Zisťuje, že kolektívna ilúzia spôsobuje 65 % zlyhaní, adverziálna debata znižuje presnosť až o 12,8 % a Self-Consistency zvyčajne dosahuje rovnakú presnosť ako debata pri nižších nákladoch na tokeny.
