Перейти к контенту

Одноагентные LLM превосходят многоагентные системы в многоходовых рассуждениях при равном бюджете токенов мышления

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

После нескольких записей в журнале, посвященных многоагентным дебатам и архитектурам с ограничениями (guardrails), я захотел проверить гипотезу на прочность: действительно ли оркестрация нескольких LLM дает нам лучшие рассуждения, или мы просто тратим больше вычислительных ресурсов? Дат Тран и Дауве Киела из Стэнфорда задаются именно этим вопросом в препринте, опубликованном в апреле 2026 года, и ответ оказывается неудобным для евангелистов многоагентных систем.

О статье

2026-05-31-single-agent-outperforms-multi-agent-equal-token-budget

Статья "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets" (arXiv:2604.02460) выдвигает обманчиво простой методологический тезис: почти все многоагентные бенчмарки сравнивают одного агента с многоагентной системой, которая использует значительно больше вычислений. Как только вы фиксируете бюджет токенов мышления — уравнивая промежуточные токены рассуждения и исключая промпты и финальные ответы — одиночные агенты догоняют или превосходят многоагентные системы в задачах многоходового рассуждения.

Авторы обосновывают это теоретико-информационным аргументом через Неравенство обработки данных (Data Processing Inequality, DPI). Когда один агент передает сообщение другому, принимающий агент работает с обработанной версией исходного контекста, а не с самим контекстом. Информация в этой цепочке может только теряться или оставаться неизменной, но никак не прирастать. Таким образом, DPI предсказывает, что многоагентная декомпозиция вносит неизбежные узкие места в коммуникации, и многоагентные системы могут превзойти одиночных агентов только тогда, когда эффективность использования контекста одиночным агентом уже деградировала.

Ключевые идеи

  • В исследовании контролируются «токены мышления» (только промежуточные рассуждения) в шести вариантах бюджета от 100 до 10 000 токенов на трех семействах моделей: Qwen3-30B, DeepSeek-R1-Distill-Llama-70B и Gemini 2.5.
  • Оцениваются пять многоагентных архитектур: последовательная, параллельная по подзадачам, параллельная по ролям, дебаты и ансамбль.
  • Используются бенчмарки FRAMES (824 сложных многоходовых вопроса, требующих интеграции из нескольких источников) и MuSiQue (4-ходовые вопросы на знание мира).
  • Одноагентные системы (SAS) достигли наивысшей или статистически эквивалентной точности почти во всех условиях с равным бюджетом. Точность SAS варьировалась в пределах 0.280–0.427; сопоставимые варианты MAS в среднем показали 0.280–0.420.
  • Характерный режим отказа для MAS — избыточное исследование и «дрейф»: агенты изучают подвопросы без отсечения лишнего и теряют нить исходного запроса. SAS сохраняет более сильную лексическую привязку к исходному вопросу.
  • Предсказание DPI подтверждается эмпирически: при сильной деградации контекста (маскирование или замена при α=0.7) многоагентные системы становятся конкурентоспособными, но только в этом случае.

Что подтверждается, а что нет

Выбранная методология — верный шаг. В области многоагентных бенчмарков существует проблема воспроизводимости именно потому, что объем вычислений редко фиксируется, и настояние авторов на равных бюджетах мышления является ценным вкладом. Формулировка через DPI элегантна, а порожденное ею экспериментальное предсказание (MAS помогает, когда использование контекста нарушено) подтверждено на трех семействах моделей, что добавляет веса аргументам.

Тем не менее, есть важные пробелы. В статье оцениваются только текстовые многоходовые рассуждения. Из рассмотрения явно исключены использование инструментов, выполнение кода и визуальные задачи. Это существенное ограничение: большинство промышленных многоагентных систем, которые реально развертываются, занимаются не чистыми текстовыми ответами на вопросы, а оркестрацией вызовов инструментов, поиском через API или работой интерпретаторов кода. Аргумент DPI о передаче сообщений теоретически применим и здесь, но эмпирически это еще не подтверждено.

Контроль бюджета токенов Gemini признан приблизительным — авторам пришлось разработать специальный вариант SAS-L со структурированным промптингом, так как канал мышления Gemini казался недоиспользованным в стандартном одноагентном режиме. Этот нюанс заслуживает пристального внимания. Если учет токенов мышления ненадежен для одного из трех семейств моделей, утверждение об уравнивании бюджетов становится труднее интерпретировать.

Два бенчмарка — также маловато для общего архитектурного вывода. В FRAMES всего 824 вопроса; MuSiQue — стандартный бенчмарк, но он не охватывает все разнообразие многоходовых структур. Кроме того, в статье не рассматривается, как разрыв между одиночными и многоагентными системами меняется по мере масштабирования возможностей моделей — результат может быть особенностью текущих размеров моделей, а не фундаментальным архитектурным открытием.

Почему это важно для ИИ в финансах

Связь с проектами Bean Labs очевидна, но требует точности. Для агента записи в Beancount меня больше всего интересует архитектура «автор — проверяющий»: один агент генерирует запись в журнале (проводку), другой проверяет ее на соответствие учетной политике перед фиксацией. Это не многоходовые текстовые ответы, а последовательный конвейер использования инструментов, где проверяющий изучает предложенный артефакт, а не заново обрабатывает тот же исходный контекст. Аргумент DPI здесь применим косвенно: отдельный агент по проверке, работающий с предложенной записью, все равно не может восстановить факты, которые отбросил автор. Но на практике «узким местом» является знание правил политики и арифметическая точность, а не потеря информации в сообщениях.

Статья бьет точнее по архитектурам дебатов, рассмотренным в предыдущих логах (Du et al., M3MAD-Bench). Если цель состоит в паре спорящих агентов для поиска ошибок в журнале, и если оба агента имеют тот же суммарный бюджет мышления, что и одиночный агент с расширенным рассуждением, данные указывают на то, что одноагентный подход надежнее. Вывод о том, что MAS конкурентоспособна только при сильной деградации контекста, также важен: для хорошо структурированных записей Beancount, где контекст чист и формализован, преимущество одиночного агента должно сохраняться.

Практический урок: относитесь с подозрением к сложности многоагентных систем, если у вас нет конкретных причин полагать, что узким местом является использование контекста. Для большинства задач учета и проверки журнала это, скорее всего, не так.

Что почитать дальше

  • Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.04692) — статья, чьи заявления по AlpacaEval этот препринт оспаривает наиболее прямо; стоит прочитать, чтобы понять, какие допущения по бюджету там использовались.
  • "Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key?" (arXiv:2402.18272, ACL 2024) — более ранняя версия по сути того же вывода: одиночный агент с хорошими промптами не уступает многоагентным дискуссиям; полезно для понимания эволюции критики.
  • Литература по масштабированию вычислений во время инференса (DeepSeek-R1, системная карта OpenAI o1) — более широкий вопрос о том, где именно помогают дополнительные вычисления при выводе; расширенная цепочка рассуждений (CoT) внутри одной модели может оказаться более устойчивым ответом.