M3MAD-Bench: Действительно ли многоагентные дебаты эффективны в различных областях и модальностях?
M3MAD-Bench проводит стресс-тестирование многоагентных дебатов на 9 моделях в 5 областях и мультимодальных условиях. Выяснилось, что «Коллективное заблуждение» вызывает 65% сбоев, состязательные дебаты снижают точность на величину до 12,8%, а метод Self-Consistency обычно достигает сопоставимой точности при меньших затратах токенов.
