M3MAD-Bench: Наистина ли са ефективни дебатите между множество агенти в различни области и модалности?
M3MAD-Bench подлага на стрес-тест дебатите между множество агенти (Multi-Agent Debate) в 9 модела, 5 области и визуално-езикови среди, установявайки, че колективната заблуда причинява 65% от неуспехите, състезателният дебат намалява точността с до 12,8%, а самосъгласуваността обикновено съответства на точността на дебата при по-ниска цена на токените.
