Преминете към основното съдържание

Едноагентните LLM превъзхождат многоагентните системи при многостъпкови разсъждения при равни бюджети от токени за мислене

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

След като посветих няколко записа в журнала на многоагентните дебати и архитектурите с предпазни механизми (guardrails), исках да подложа на стрес-тест следната предпоставка: дали оркестрацията на множество LLM действително ни осигурява по-добри разсъждения, или просто хабим повече изчислителни ресурси? Дат Тран и Дауве Киела от Станфорд питат точно това в предварителна публикация от април 2026 г., и отговорът е неудобен за евангелистите на многоагентните системи.

Документът

2026-05-31-single-agent-outperforms-multi-agent-equal-token-budget

„Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets“ (arXiv:2604.02460) поставя подвеждащо проста методологична точка: почти всички многоагентни бенчмаркове сравняват един агент с многоагентна система, която използва значително повече изчисления. Щом изравните бюджета от токени за мислене — като съпоставите междинните токени за разсъждение, изключвайки подканите и крайните отговори — единичните агенти съвпадат или побеждават многоагентните системи при задачи за многостъпково разсъждение.

Авторите рамкират това с информационно-теоретичен аргумент чрез Неравенството при обработката на данни (Data Processing Inequality - DPI). Когато един агент предава съобщение на друг, приемащият агент работи с обработена версия на оригиналния контекст, а не със самия контекст. В тази верига информацията може само да бъде загубена или да остане същата — никога да не бъде спечелена. Следователно DPI предвижда, че многоагентната декомпозиция въвежда неизбежни пречки в комуникацията, и многоагентните системи могат да превъзхождат единичните агенти само когато ефективното използване на контекста от страна на единичния агент вече е влошено.

Ключови идеи

  • Проучването контролира „токените за мислене“ — само междинните токени за разсъждение — в шест бюджета от токени от 100 до 10 000 токена, използвайки три фамилии модели: Qwen3-30B, DeepSeek-R1-Distill-Llama-70B и Gemini 2.5.
  • Оценени са пет многоагентни архитектури: последователна, паралелна по подзадачи, паралелна по роли, дебат и ансамбъл.
  • Използваните бенчмаркове са FRAMES (824 предизвикателни многостъпкови въпроса, изискващи интеграция от множество източници) и MuSiQue (4-стъпкови въпроси за общи познания за света).
  • Едноагентните системи (SAS) постигат най-висока или статистически еквивалентна точност в почти всички условия с изравнен бюджет. Точността на SAS варира от 0.280 до 0.427 в различните бюджети; съпоставимите варианти на многоагентни системи (MAS) усредняват 0.280–0.420.
  • Характерният режим на неуспех за MAS е прекомерното изследване и отклонение (drift): агентите изследват под-въпроси без филтриране и губят представа за първоначалната заявка. SAS поддържа по-силно лексикално закотвяне към оригиналния въпрос.
  • Предсказанието на DPI се потвърждава емпирично: при тежко влошаване на контекста (маскиране или замяна при α=0.7), многоагентните системи стават конкурентоспособни — но само тогава.

Какво се потвърждава и какво не

Основната методология е правилният ход. Областта има проблем с възпроизводимостта на многоагентните бенчмаркове именно защото изчисленията рядко се държат константни, а настояването на авторите за съпоставени бюджети за мислене е истински принос. Рамката на DPI е изчистена, а експерименталното предсказание, което тя генерира — че MAS помага, когато използването на контекста се срива — е потвърдено в три фамилии модели, което добавя достоверност.

Въпреки това, няколко празноти имат значение. Документът оценява само текстово базирано многостъпково разсъждение. Той изрично изключва използването на инструменти, изпълнението на код и задачите за зрение. Това изключване е значително: повечето производствени многоагентни системи, които хората действително внедряват, не извършват чисто текстово QA, а оркестрират извиквания на инструменти, търсения в API или интерпретатори на код между агентите. Аргументът на DPI относно предаването на съобщения между агентите е теоретично приложим към тези настройки, но емпиричното твърдение не е валидирано там.

Контролът върху бюджета от токени на Gemini е признат за приблизителен — авторите са разработили специален вариант SAS-L със структурирани подкани, тъй като каналът за мислене на Gemini изглежда недостатъчно използван в стандартен едноагентен режим. Това е страничен фактор, който заслужава внимание. Ако отчитането на токените за мислене е ненадеждно за една от трите фамилии модели, твърдението за изравняване на бюджета става по-трудно за интерпретиране.

Два бенчмарка също са малко за общо архитектурно твърдение. FRAMES има само 824 въпроса; MuSiQue е стандартен бенчмарк, но не обхваща пълното разнообразие от многостъпкови структури. Освен това документът не разглежда как разликата между един и много агенти се променя с мащабирането на възможностите на моделите — резултатът може да е характеристика на настоящите размери на моделите, а не фундаментално архитектурно откритие.

Защо това е важно за финансовия AI

Връзката с Bean Labs е реална, но се нуждае от прецизност. За агент за записване в Beancount, архитектурата, която ме интересува най-много, е двойката „писател-верификатор“: единият агент генерира счетоводен запис, а другият го проверява за съответствие с политиките, преди да го потвърди. Това не е многостъпково текстово QA — това е последователен тръбопровод за използване на инструменти, където верификаторът изследва предложен артефакт, а не обработва отново същия оригинален контекст. Аргументът на DPI се прилага условно: отделен верифициращ агент, работещ от предложен запис, все още не може да възстанови факти, които писателят е отхвърлил. Но пречката на практика е припомнянето на правилата на политиката и аритметичната коректност, а не загубата на информация в съобщенията.

Там, където този документ удря по-директно, са дебатните архитектури, разгледани в по-ранни записи (Du et al., M3MAD-Bench). Ако целта е двойка дебатиращи агенти за улавяне на грешки в главната книга и ако двата агента имат същия общ бюджет за мислене като един агент с разширени разсъждения, доказателствата тук предполагат, че едноагентният подход е по-надежден. Констатацията, че MAS е конкурентоспособен само когато контекстът е силно влошен, също е важна: за добре структурирани записи в Beancount, където контекстът е чист и добре оформен, предимството на единичния агент трябва да се запази.

Практическият урок е да се отнасяме подозрително към многоагентната сложност, освен ако нямаме конкретна причина да вярваме, че използването на контекста е тясното място. За повечето задачи за QA в главната книга, вероятно не е.

Какво да прочетете след това

  • Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.04692) — документът, чиито твърдения в AlpacaEval са най-директно оспорени тук; заслужава си да се прочете, за да се разберат точно направените предположения за бюджета.
  • „Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key?“ (arXiv:2402.18272, ACL 2024) — по-ранна версия на по същество същото откритие: единичен агент с добри подкани съвпада с многоагентна дискусия; полезно за проследяване на еволюцията на критиката.
  • Литература за мащабиране на изчисленията по време на тест (DeepSeek-R1, OpenAI o1 system card) — по-широкият въпрос е къде допълнителните изчисления при извеждане (inference) действително помагат, и разширената верига от мисли (chain-of-thought) в рамките на един модел може да бъде по-стабилният отговор.