M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?
M3MAD-Bench проводить стрес-тестування багатоагентних дебатів на прикладі 9 моделей, 5 доменів та візуально-мовних налаштувань, виявивши, що колективна омана спричиняє 65% невдач, змагальні дебати знижують точність до 12,8%, а метод Self-Consistency зазвичай відповідає точності дебатів при менших витратах токенів.
