Перейти до основного вмісту

Дебати між мультиагентними LLM: реальний приріст точності, неконтрольовані обчислення та колективна ілюзія

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Я думав про мультиагентну верифікацію для безпеки зворотного запису Beancount — зокрема про те, чи може агент-перевіряльник змістовно дебатувати з агентом-записувачем перед тим, як запис потрапить до бухгалтерської книги. Це питання повернуло мене до фундаментальної статті про мультиагентні дебати, яка була представлена на ICML 2024 і відтоді зібрала корисний масив критичних досліджень.

Стаття

2026-05-24-multiagent-debate-factuality-reasoning-llms

Стаття «Improving Factuality and Reasoning in Language Models through Multiagent Debate» (Покращення фактологічності та міркувань у мовних моделях через мультиагентні дебати) авторів Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum та Igor Mordatch пропонує підхід, який вони називають «товариством розумів»: кілька екземплярів LLM генерують початкову відповідь, потім ознайомлюються з відповідями колег і оновлюють власну відповідь протягом кількох раундів. Ключовим дизайнерським рішенням є те, що цей підхід потребує лише доступу до результатів моделі за принципом «чорної скриньки» — без градієнтів, тонкого налаштування або змін архітектури. Вони протестували його на шести бенчмарках: арифметика, GSM8K, оптимальність шахових ходів, біографічна фактологічність, MMLU та коректність шахових ходів.

Налаштування, для якого наведено найбільше результатів — це 3 агенти, що дебатують протягом 2 раундів. Концептуальна ставка полягає в тому, що незгода змушує агентів чітко формулювати свої міркування, тоді як конвергенція сигналізує про справжню впевненість, а не просто випадкову збіжність.

Ключові ідеї

  • В арифметиці дебати дозволили досягти точності 81,8% проти 67,0% у одного агента та 72,1% у одного агента з рефлексією — приріст на 14,8 пункту порівняно з базовим рівнем.
  • На GSM8K (математика початкової школи) — 85,0% проти 77,0% у одного агента та 75,0% з рефлексією.
  • На MMLU (100 запитань з різних предметних областей) — 71,1% проти 63,9% у одного агента та 57,7% з рефлексією.
  • Щодо біографічної фактологічності — 73,8% проти 66,0% у одного агента.
  • Міжмодельні дебати (ChatGPT + Bard над 20 задачами GSM8K) вирішили 17/20 задач проти 11–14 для кожної моделі окремо — це найбільш вражаючий результат статті, оскільки він показує, як гетерогенні агенти виправляють помилки один одного.
  • Продуктивність масштабувалася як з кількістю агентів, так і з кількістю раундів (до 4 раундів), після чого спостерігався спадний ефект. «Довгі» промпти, які явно заохочували агентів не поспішати перед досягненням консенсусу, стабільно перевершували короткі промпти.

Що підтверджується, а що — ні

Приріст показників реальний, а охоплення бенчмарків ширше, ніж у більшості робіт про промптинг. Я вірю в спрямований висновок: наявність кількох агентів, що критикують один одного, дозволяє виявити більше помилок, ніж рефлексія одного агента над власним результатом.

Проблема полягає в тому, що залишилося поза контролем. Три агенти, що дебатують протягом двох раундів, потребують приблизно в 6 разів більше обчислювальних ресурсів для інференсу, ніж один виклик, і це без урахування довшого контексту. У статті не представлено базового рівня з рівним бюджетом. Самоузгодженість (self-consistency) — голосування більшістю за результатами багатьох незалежних вибірок одного агента — є природним порівнянням, яке у статті згадується лише побіжно. Стаття 2025 року (arXiv:2604.02460) проводить саме такий контроль на бенчмарках багатоетапних міркувань для Qwen3, DeepSeek-R1 та Gemini 2.5 з однаковим бюджетом токенів міркування і виявляє, що «системи з одним агентом можуть зрівнятися або перевершити мультиагентні системи (MAS)», як тільки бюджет обчислень вирівнюється. Це прямий виклик основному твердженню.

Інший режим невдачі, який стаття визнає, але недооцінює — це те, що M3MAD-Bench (arXiv:2601.02854) називає «колективною ілюзією» (Collective Delusion): під час мануального аналізу 100 помилок у дебатах 65% випадків стосувалися ситуацій, коли агенти взаємно підкріплювали неправильні відповіді замість того, щоб їх виправляти. У самому тексті статті зазначено, що агенти іноді «впевнено стверджують, що їхня відповідь правильна», навіть коли сходяться на неправильному варіанті. Коли всі агенти мають однаковий тренувальний розподіл — гомогенний випадок — вони, ймовірно, мають однакові сліпі плями. У такому разі дебати лише посилюють помилку, а не виявляють її.

Пов'язаний висновок із тієї ж статті: «неправильна конформність» (Incorrect Conformity) становить значну частку невдач — коли агент із правильною відповіддю відмовляється від здорових міркувань після ознайомлення з неправильними відповідями колег. Це протилежність того, що має робити фреймворк дебатів. Це нагадування про те, що динаміка переконання в цих мультиагентних циклах може працювати в обох напрямках.

Чому це важливо для фінансового ШІ

Архітектура дійсно приваблива для безпеки зворотного запису Beancount: записувач пропонує запис у книзі, перевіряльник дебатує щодо нього, консенсус ініціює фіксацію (commit). Аналіз ризиків змінюється залежно від того, що саме ви записуєте. Для повсякденних витрат на продукти вартість раунду дебатів не виправдана. Для запису в журналі на кінець податкового року або міжфірмового переказу наявність другого агента, який перевірить коди рахунків і суми перед фіксацією, є цілком доцільною.

Але «колективна ілюзія» особливо небезпечна для бухгалтерії. Якщо і записувач, і перевіряльник поділяють одне й те саме помилкове переконання щодо того, як певна категорія відрахувань класифікується за правилами певної юрисдикції, дебати підтвердять помилку замість того, щоб сигналізувати про неї. Результат міжмодельних дебатів у статті натякає на рішення: гетерогенні агенти — різні моделі, різні системні промпти або один агент, що спирається на зовнішню документацію — з більшою ймовірністю виявлять справжню незгоду. M3MAD-Bench підтверджує, що «спільні гетерогенні дебати» суттєво перевершують гомогенні налаштування.

Множення обчислень також має значення у виробничих масштабах. Десять редагувань книги за сесію × 3 агенти × 2 раунди = 60 LLM-викликів. Це прийнятно для критично важливих записів, але не для рутинного імпорту транзакцій. Правильним дизайном, ймовірно, буде багаторівневий підхід: швидкий шлях з одним агентом для добре структурованих записів, і запуск дебатів лише тоді, коли записувач висловлює невпевненість або коли запис стосується високочутливих класів рахунків (податкові зобов'язання, нерозподілений прибуток, міжфірмові операції).

Що прочитати далі

  • arXiv:2604.02460 — «Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets»: найбільш чіткий опублікований виклик заявленим перевагам дебатів у обчисленнях.
  • arXiv:2601.02854 — M3MAD-Bench: масштабне оцінювання дебатів на базі 9 моделей та 13 датасетів з таксономією помилок «колективної ілюзії».
  • arXiv:2406.09187 — GuardAgent: агент-охоронець, який перетворює політики безпеки на виконуваний код; більш прямий підхід до безпеки зворотного запису, ніж консенсус на основі дебатів.