Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія
Я думав про мультиагентну верифікацію для безпеки зворотного запису Beancount — зокрема про те, чи може агент-перевіряльник змістовно дебатувати з агентом-записувачем перед тим, як запис потрапить до бухгалтерської книги. Це питання повернуло мене до фундаментальної статті про мультиагентні дебати, яка була представлена на ICML 2024 і відтоді зібрала корисний масив критичних досліджень.
Стаття
Стаття «Improving Factuality and Reasoning in Language Models through Multiagent Debate» (Покращення фактологічності та міркувань у мовних моделях через мультиагентні дебати) авторів Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum та Igor Mordatch пропонує підхід, який вони називають «товариством розумів»: кілька екземплярів LLM генерують початкову відповідь, потім ознайомлюються з відповідями колег і оновлюють власну відповідь протягом кількох раундів. Ключовим дизайнерським рішенням є те, що цей підхід потребує лише доступу до результатів моделі за принципом «чорної скриньки» — без градієнтів, тонкого налаштування або змін архітектури. Вони протестували його на шести бенчмарках: арифметика, GSM8K, оптимальність шахових ходів, біографічна фактологічність, MMLU та коректність шахових ходів.
Налаштування, для якого наведено найбільше результатів — це 3 агенти, що дебатують протягом 2 раундів. Концептуальна ставка полягає в тому, що незгода змушує агентів чітко формулювати свої міркування, тоді як конвергенція сигналізує про справжню впевненість, а не просто випадкову збіжність.
Ключові ідеї
- В арифметиці дебати дозволили досягти точності 81,8% проти 67,0% у одного агента та 72,1% у одного агента з рефлексією — приріст на 14,8 пункту порівняно з базовим рівнем.
- На GSM8K (математика початкової школи) — 85,0% проти 77,0% у одного агента та 75,0% з рефлексією.
- На MMLU (100 запитань з різних предметних областей) — 71,1% проти 63,9% у одного агента та 57,7% з рефлексією.
- Щодо біографічної фактологічності — 73,8% проти 66,0% у одного агента.
- Міжмодельні дебати (ChatGPT + Bard над 20 задачами GSM8K) вирішили 17/20 задач проти 11–14 для кожної моделі окремо — це найбільш вражаючий результат статті, оскільки він показує, як гетерогенні агенти виправляють помилки один одного.
- Продуктивність масштабувалася як з кількістю агентів, так і з кількістю раундів (до 4 раундів), після чого спостерігався спадний ефект. «Довгі» промпти, які явно заохочували агентів не поспішати перед досягненням консенсусу, стабільно перевершували короткі промпти.
Що підтверджується, а що — ні
Приріст показників реальний, а охоплення бенчмарків ширше, ніж у більшості робіт про промптинг. Я вірю в спрямований висновок: наявність кількох агентів, що критикують один одного, дозволяє виявити більше помилок, ніж рефлексія одного агента над власним результатом.
Проблема полягає в тому, що залишилося поза контролем. Три агенти, що дебатують протягом двох раундів, потребують приблизно в 6 разів більше обчислювальних ресурсів для інференсу, ніж один виклик, і це без урахування довшого контексту. У статті не представлено базового рівня з рівним бюджетом. Самоузгодженість (self-consistency) — голосування більшістю за результатами багатьох незалежних вибірок одного агента — є природним порівнянням, яке у статті згадується лише побіжно. Стаття 2025 року (arXiv:2604.02460) проводить саме такий контроль на бенчмарках багатоетапних міркувань для Qwen3, DeepSeek-R1 та Gemini 2.5 з однаковим бюджетом токенів міркування і виявляє, що «системи з одним агентом можуть зрівнятися або перевершити мультиагентні системи (MAS)», як тільки бюджет обчислень вирівнюється. Це прямий виклик основному твердженню.
Інший режим невдачі, який стаття визнає, але недооцінює — це те, що M3MAD-Bench (arXiv:2601.02854) називає «колективною ілюзією» (Collective Delusion): під час мануального аналізу 100 помилок у дебатах 65% випадків стосувалися ситуацій, коли агенти взаємно підкріплювали неправильні відповіді замість того, щоб їх виправляти. У самому тексті статті зазначено, що агенти іноді «впевнено стверджують, що їхня відповідь правильна», навіть коли сходяться на неправильному варіанті. Коли всі агенти мають однаковий тренувальний розподіл — гомогенний випадок — вони, ймовірно, мають однакові сліпі плями. У такому разі дебати лише посилюють помилку, а не виявляють її.
Пов'язаний висновок із тієї ж статті: «неправильна конформність» (Incorrect Conformity) становить значну частку невдач — коли агент із правильною відповіддю відмовляється від здорових міркувань після ознайомлення з неправильними відповідями колег. Це протилежність того, що має робити фреймворк дебатів. Це нагадування про те, що динаміка переконання в цих мультиагентних циклах може працювати в обох напрямках.