Перейти до основного вмісту

Одноагентні LLM перевершують багатоагентні системи у багатокрокових міркуваннях за умови однакового бюджету токенів мислення

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Провівши декілька записів у журналі за темою багатоагентних дебатів та архітектур із запобіжниками, я захотів протестувати вихідну передумову: чи справді оркестрація кількох LLM дає нам кращі міркування, чи ми просто витрачаємо більше обчислювальних ресурсів? Дат Тран та Дуве Кіла зі Стенфорда ставлять саме це питання у препринті, опублікованому у квітні 2026 року, і відповідь виявляється не надто приємною для апологетів багатоагентних систем.

Дослідження

2026-05-31-single-agent-outperforms-multi-agent-equal-token-budget

Стаття "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets" (arXiv:2604.02460) робить оманливо простий методологічний висновок: майже всі багатоагентні бенчмарки порівнюють одного агента з багатоагентною системою, яка використовує значно більше обчислень. Як тільки ви фіксуєте бюджет токенів мислення — узгоджуючи проміжні токени міркувань і виключаючи промпти та фінальні відповіді — поодинокі агенти не поступаються або навіть перевершують багатоагентні системи в задачах багатокрокового міркування.

Автори формулюють це за допомогою інформаційно-теоретичного аргументу через нерівність обробки даних (DPI). Коли один агент передає повідомлення іншому, агент-отримувач працює з обробленою версією оригінального контексту, а не з самим контекстом. Інформація в цьому ланцюжку може лише втрачатися або залишатися незмінною, але ніколи не додаватися. Таким чином, DPI прогнозує, що багатоагентна декомпозиція створює неминучі вузькі місця в комунікації, і багатоагентні системи можуть перевершити поодиноких агентів лише тоді, коли ефективне використання контексту поодиноким агентом уже погіршене.

Ключові ідеї

  • Дослідження контролює «токени мислення» (тільки проміжні міркування) у шести бюджетах від 100 до 10 000 токенів, використовуючи три сімейства моделей: Qwen3-30B, DeepSeek-R1-Distill-Llama-70B та Gemini 2.5.
  • Оцінюються п'ять багатоагентних архітектур (MAS): послідовна, паралельна підзадачам, паралельні ролі, дебати та ансамбль.
  • Використані бенчмарки: FRAMES (824 складних багатокрокових питання, що вимагають інтеграції з кількох джерел) та MuSiQue (питання про знання світу у 4 кроки).
  • Одноагентні системи (SAS) досягли найвищої або статистично еквівалентної точності майже у всіх умовах з однаковим бюджетом. Точність SAS коливалася в межах 0,280–0,427 для різних бюджетів; порівнянні варіанти MAS в середньому показали 0,280–0,420.
  • Характерною причиною невдач MAS є надмірне дослідження (over-exploration) та дрейф: агенти досліджують підпитання без відсікання зайвого і втрачають зв'язок з оригінальним запитом. SAS зберігає сильнішу лексичну прив'язку до вихідного питання.
  • Прогноз DPI підтверджується емпірично: за умов сильної деградації контексту (маскування або заміна при α=0,7) багатоагентні системи стають конкурентоспроможними, але тільки тоді.

Що підтверджується, а що ні

Основна методологія — це правильний крок. У галузі існує проблема відтворюваності багатоагентних бенчмарків саме тому, що обчислювальні ресурси рідко фіксуються, і наполягання авторів на узгоджених бюджетах мислення є справжнім внеском. Формулювання через DPI є чітким, а експериментальний прогноз, який воно генерує — MAS допомагає, коли використання контексту дає збій — підтверджений на трьох сімействах моделей, що додає достовірності.

Проте є кілька важливих прогалин. Робота оцінює лише текстове багатокрокове міркування. Вона прямо виключає використання інструментів, виконання коду та візуальні завдання. Це виключення є суттєвим: більшість промислових багатоагентних систем, які реально впроваджуються, не займаються чистими текстовими питаннями та відповідями, а оркеструють виклики інструментів, пошук в API або інтерпретатори коду між агентами. Аргумент DPI про передачу повідомлень між агентами теоретично застосовний і в цих випадках, але емпіричне твердження там ще не перевірене.

Контроль бюджету токенів Gemini визнаний приблизним — автори розробили спеціальний варіант SAS-L зі структурованими промптами, оскільки канал мислення Gemini здавався недостатньо використаним у стандартному одноагентному режимі. Це той нюанс, який варто вивчити детальніше. Якщо облік токенів мислення є ненадійним для одного з трьох сімейств моделей, твердження про рівність бюджетів стає складнішим для інтерпретації.

Два бенчмарки також замало для загального архітектурного висновку. FRAMES містить лише 824 питання; MuSiQue — це стандартний бенчмарк, але він не охоплює всього розмаїття багатокрокових структур. Крім того, у статті не розглядається, як розрив між одно- та багатоагентними системами змінюється залежно від масштабу можливостей моделей — результат може бути властивістю поточних розмірів моделей, а не фундаментальним архітектурним відкриттям.

Чому це важливо для ШІ у фінансах

Зв'язок із Bean Labs реальний, але потребує точності. Для агента зворотного запису Beancount мене найбільше цікавить архітектура «автор-перевіряльник»: один агент генерує запис у леджері, інший перевіряє його на відповідність правилам перед фіксацією. Це не багатокрокові текстові питання-відповіді — це послідовний конвеєр використання інструментів, де перевіряльник вивчає запропонований артефакт, а не повторно обробляє той самий вихідний контекст. Аргумент DPI тут застосовний лише опосередковано: окремий агент-верифікатор, працюючи із запропонованим записом, все одно не зможе відновити факти, які «автор» відкинув. Але на практиці вузьким місцем є згадування правил та арифметична правильність, а не втрата інформації між повідомленнями.

Де ця стаття влучає точніше, так це в архітектури дебатів, розглянуті в попередніх записах (Du et al., M3MAD-Bench). Якщо метою є пара агентів, що дебатують для виявлення помилок у леджері, і якщо обидва агенти мають той самий загальний бюджет мислення, що й один агент із розширеними міркуваннями, наведені тут докази свідчать, що одноагентний підхід є надійнішим. Висновок про те, що MAS є конкурентоспроможним лише за сильної деградації контексту, також важливий: для добре структурованих записів Beancount, де контекст чистий і правильно сформований, перевага одноагентного підходу повинна зберігатися.

Практичний урок полягає в тому, щоб з підозрою ставитися до багатоагентної складності, якщо у вас немає конкретних причин вважати, що використання контексту є вузьким місцем. Для більшості завдань із запитами до леджера це, ймовірно, не так.

Що читати далі

  • Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.04692) — стаття, чиї твердження щодо AlpacaEval цей препринт оскаржує найбільш прямо; варто прочитати, щоб зрозуміти, які саме припущення щодо бюджету там робилися.
  • "Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key?" (arXiv:2402.18272, ACL 2024) — рання версія по суті того ж висновку: один агент із хорошими промптами відповідає рівню багатоагентної дискусії; корисно для відстеження еволюції критики.
  • Література про масштабування обчислень під час виводу (DeepSeek-R1, системна картка OpenAI o1) — ширше питання про те, де додаткові обчислення при інференсі реально допомагають; розширений ланцюжок думок у межах однієї моделі може бути надійнішою відповіддю.