Перейти к контенту

Дебаты мультиагентных LLM: реальный прирост точности, неконтролируемые вычисления и коллективное заблуждение

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Я размышлял о мультиагентной проверке для безопасности обратной записи в Beancount — в частности, о том, может ли агент-проверяльщик вести содержательные дебаты с агентом-записывающим перед фиксацией транзакции в книге учета. Этот вопрос привел меня обратно к основополагающей работе о мультиагентных дебатах, представленной на ICML 2024, которая с тех пор обросла полезным набором критических исследований.

Статья

2026-05-24-multiagent-debate-factuality-reasoning-llms

В работе «Повышение фактологической точности и аргументации в языковых моделях посредством мультиагентных дебатов» Илунь Ду, Шуан Ли, Антонио Торральба, Джошуа Б. Тененбаум и Игорь Мордач предлагают подход, который они называют «обществом разумов» (society of minds): несколько экземпляров LLM генерируют первоначальный ответ, затем изучают полный набор ответов коллег и обновляют свое решение в течение нескольких раундов. Ключевое проектное решение заключается в том, что подход требует только доступа к выходным данным модели по принципу «черного ящика» — без градиентов, дообучения или изменения архитектуры. Они протестировали его на шести бенчмарках: арифметика, GSM8K, оптимальность шахматных ходов, биографическая точность, MMLU и корректность шахматных ходов.

Конфигурация, по которой представлено больше всего результатов, — это 3 агента, ведущие дебаты в течение 2 раундов. Концептуальная ставка делается на то, что разногласия заставляют агентов четко формулировать свои рассуждения, в то время как конвергенция (схождение мнений) сигнализирует о подлинной уверенности, а не о случайном совпадении.

Основные идеи

  • В арифметике дебаты позволили достичь точности 81,8% против 67,0% у одиночного агента и 72,1% при рефлексии одиночного агента — прирост на 14,8 пункта относительно базовой линии.
  • На GSM8K (математика для начальной школы) — 85,0% против 77,0% у одиночного агента и 75,0% при рефлексии.
  • На MMLU (100 вопросов по разным предметам) — 71,1% против 63,9% у одиночного агента и 57,7% при рефлексии.
  • В биографической точности — 73,8% против 66,0% у одиночного агента.
  • Дебаты между разными моделями (ChatGPT + Bard по 20 задачам GSM8K) решили 17 из 20 задач против 11–14 у каждой модели по отдельности. Это самый поразительный результат в статье, так как он показывает, как гетерогенные агенты исправляют ошибки друг друга.
  • Производительность масштабировалась как с количеством агентов, так и с количеством раундов (до 4-х), после чего отдача снижалась. «Длинные» промпты, явно призывающие агентов не торопиться перед достижением консенсуса, стабильно превосходили короткие промпты.

Что подтверждается, а что нет

Прирост точности реален, а охват бенчмарков шире, чем в большинстве статей о промптинге. Я верю в основной вывод: когда несколько агентов критикуют друг друга, это выявляет больше ошибок, чем когда один агент рефлексирует над собственным результатом.

Проблема заключается в отсутствии контроля переменных. Три агента, ведущие дебаты в течение двух раундов, требуют примерно в 6 раз больше вычислительных ресурсов для инференса, чем один вызов, и это без учета увеличивающегося контекста. В статье не представлено сравнение с базовой линией при равном бюджете. Self-consistency (мажоритарное голосование по множеству независимых выборок одиночного агента) — это естественное сравнение, которое в статье упоминается лишь кратко. В работе 2025 года (arXiv:2604.02460) был проведен именно такой контроль на бенчмарках многоходовых рассуждений (multi-hop reasoning) для Qwen3, DeepSeek-R1 и Gemini 2.5 с сопоставимым бюджетом токенов рассуждения. Исследование показало, что «одноагентные системы могут соответствовать или превосходить мультиагентные системы (MAS)» при уравнивании вычислительных затрат. Это прямой вызов основному утверждению статьи.

Другой сценарий отказа, который авторы признают, но недооценивают, — это то, что в M3MAD-Bench (arXiv:2601.02854) называют «коллективным заблуждением» (Collective Delusion). Ручной анализ 100 неудачных дебатов показал, что в 65% случаев агенты взаимно подкрепляли неверные ответы вместо того, чтобы исправлять их. В тексте самой статьи отмечается, что агенты иногда «уверенно подтверждают правильность своего ответа», даже сходясь на неверном решении. Когда все агенты обучались на одном и том же распределении данных (гомогенный случай), у них, скорее всего, будут общие «слепые зоны». В этом случае дебаты лишь усиливают ошибку, а не устраняют ее.

Связанный с этим вывод из той же работы: «некорректная конформность» (Incorrect Conformity) составляет значительную долю неудач — когда правильно ответивший агент отказывается от верных рассуждений, прочитав ошибочные ответы коллег. Это прямо противоположно тому, что должна давать структура дебатов. Это напоминает нам о том, что динамика убеждения в мультиагентных циклах может работать в обе стороны.

Почему это важно для ИИ в финансах

Сама архитектура весьма привлекательна для обеспечения безопасности обратной записи в Beancount: «писатель» предлагает запись в книге учета, «проверяльщик» оспаривает ее, консенсус инициирует коммит. Анализ рисков меняется в зависимости от того, что именно вы записываете. Для рутинных расходов на продукты стоимость раунда дебатов не оправдана. Но для журнальной записи на конец налогового года или межфирменного перевода привлечение второго агента для проверки кодов счетов и сумм перед фиксацией вполне обосновано.

Однако «коллективное заблуждение» особенно опасно для бухгалтерии. Если и «писатель», и «проверяльщик» разделяют одно и то же неверное убеждение о том, как конкретный вычет классифицируется согласно правилам данной юрисдикции, дебаты подтвердят ошибку вместо того, чтобы сигнализировать о ней. Результат статьи по дебатам между разными моделями намекает на решение: гетерогенные агенты (разные модели, разные системные промпты или один агент, опирающийся на внешнюю документацию) с большей вероятностью обнаружат подлинное несогласие. M3MAD-Bench подтверждает, что «коллаборативные гетерогенные дебаты» существенно превосходят гомогенные конфигурации.

Множитель вычислений также имеет значение в промышленных масштабах. Десять правок в книге учета за сессию × 3 агента × 2 раунда = 60 вызовов LLM. Это допустимо для критически важных записей, но не для рутинного импорта транзакций. Оптимальным решением, вероятно, будет многоуровневый подход: быстрый путь с одним агентом для хорошо структурированных записей и дебаты только тогда, когда «писатель» выражает неуверенность или когда запись затрагивает высокочувствительные классы счетов (налоговые обязательства, нераспределенная прибыль, внутригрупповые расчеты).

Что почитать дальше

  • arXiv:2604.02460 — «Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets»: наиболее четкое опубликованное опровержение заявленных преимуществ дебатов в плане вычислений.
  • arXiv:2601.02854 — M3MAD-Bench: масштабная оценка дебатов на базе 9 моделей и 13 датасетов с таксономией отказов типа «коллективное заблуждение».
  • arXiv:2406.09187 — GuardAgent: агент-хранитель, который переводит политики безопасности в исполняемый код; более прямой подход к безопасности обратной записи, чем консенсус на основе дебатов.