M3MAD-Bench: Чи справді багатоагентні дебати ефективні в різних доменах та модальностях?
Я читаю M3MAD-Bench (arXiv:2601.02854) авторів Ao Li та ін., найбільш комплексне стрес-тестування багатоагентних дебатів на сьогодні, що охоплює дев'ять моделей, п'ять доменів, а також суто текстові та візуально-мовні налаштування. Я взявся за цю статтю одразу після аналізу роботи Ду та ін. про дебати, оскільки відкритим питанням залишалося те, чи масштабуються переваги дебатів — і цей бенчмарк дає відповіді, які змусять замислитися будь-кого, хто проектує багатоагентні конвеєри верифікації.
Про статтю
Багатоагентні дебати (Multi-Agent Debate, MAD) базуються на ідеї, що кілька екземплярів LLM покращують свої колективні відповіді шляхом пропонування, критики та перегляду варіантів протягом кількох раундів. Ду та ін. (ICML 2024) продемонстрували абсолютне покращення на 5–10% на GSM8K та MMLU, використовуючи трьох агентів-дебатерів, і ця ідея стала популярною. M3MAD-Bench від Ao Li та тринадцяти співавторів досліджує, чи зберігаються ці переваги при оцінці в різних доменах, модальностях та в умовах реалістичних обмежень ефективності.
Бенчмарк охоплює п'ять прикладних сфер — знання, математика, медицина, природничі науки та комплексне логічне мислення — як на текстових, так і на візуально-мовних наборах даних. Він оцінює як колаборативні архітектури дебатів (LLM Debate, DMAD), так і змагальні (Div-MAD). Окрім точності, автори вимірюють споживання токенів та час інференсу, щоб отримати уявлення про співвідношення продуктивності до вартості, яке попередні роботи ігнорували.
Ключові ідеї
- Колаборативні MAD можуть перевершувати базовий одноагентний рівень у завданнях зі складними міркуваннями: Qwen2.5-14B демонструє стрибок з 79,8% (стандартний інференс) до 84,2% (LLM Debate) на MATH. Ці +4,4% є значущими, але це також піковий показник — в інших сферах приріст є меншим.
- У бенчмарках, орієнтованих на знання, приріст є маргінальним: показник Qwen2.5-14B на MMLU зростає з 64,0% до 65,0%, а ця різниця може легко зникнути при зміні моделі або випадкового значення (seed) оцінювання.
- Змагальні дебати активно погіршують результативність: Div-MAD знижує показники LLaMA3.1-8B з базових 51,0% до 38,2% в середньому — це регресія на -12,8%, а не покращення.
- Масштабування кількості агентів від 2 до 6 показує помірну позитивну тенденцію на MATH (53,4% → 56,6%), що автори приписують ефекту ансамблю, а не справжньому вдосконаленню логіки.
- Додавання більшої кількості раундів дебатів не допомагає, а часто шкодить; продуктивність виходить на плато або регресу є після першого раунду.
- Домінуючим типом помилок є Колективна омана (Collective Delusion) (65% випадків): агенти взаємно підсилюють хибні припущення та формують цикл галюцинацій. Помилка вибору (Selection Failure) — коли правильні відповіді з'являються, але агрегатор їх пропускає — становить ще 17%.
- Споживання токенів та час інференсу суттєво зростають при використанні MAD, тоді як приріст точності залишається скромним. Незалежний аналіз ICLR 2025 з використанням подібної методології виявив, що метод Self-Consistency дає 82,13% на MMLU проти варіантів MAD (67,87%–80,40%), а на GSM8K — 95,67% проти MAD (90,87–94,93%).
Що підтверджується, а що — ні
Бенчмарк методологічно ґрунтовний: дев'ять моделей, кілька доменів, обидві модальності та метрики ефективності разом дають більш контрольований результат, ніж будь-які попередні роботи. Класифікація помилок є найкориснішим внеском — чітке визначення "Колективної омани" дає більше розуміння, ніж розпливчасті заяви про те, що "дебати іноді не працюють".
Скепсис у мене викликає спектр охоплених методів MAD. Стаття порівнює LLM Debate, DMAD та Div-MAD, але не включає варіанти дебатів із явними кроками верифікації (як-от зовнішні валідатори в стилі CRITIC або GuardAgent), які є найактуальнішими для агентів із можливістю зворотного запису (write-back). Висновок про те, що "колаборативні дебати кращі за змагальні", може стосуватися саме цих конкретних реалізацій, а не змагальних дебатів загалом. Результати також не відокремлюють внесок агрегації консенсусу від внеску ітеративного вдосконалення, тому важко зрозуміти, яка саме частина LLM Debate забезпечує результат.
Висновки щодо ефективності важко ігнорувати: якщо Self-Consistency забезпечує порівнянну або кращу точність за меншої вартості токенів, то вибором за замовчуванням для промислового фінансового ШІ має бути SC, а не MAD. З іншого боку, у статті немає порівняння з ланцюжком думок (chain-of-thought) із верифікатором — архітектурою, яку я б обрав перед впровадженням повноцінних дебатів.