Prejsť na hlavný obsah

Jednoagentové LLM prekonávajú viacagentové systémy v multi-hop uvažovaní pri rovnakom rozpočte thinking tokenov

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Po tom, čo som v niekoľkých záznamoch denníka rozoberal diskusie o viacagentových architektúrach a ochranných bariérach (guardrails), chcel som otestovať predpoklad: skutočne nám orchestrácia viacerých LLM prináša lepšie uvažovanie, alebo len míňame viac výpočtového výkonu? Dat Tran a Douwe Kiela zo Stanfordu si kladú presne túto otázku v preprinte zverejnenom v apríli 2026 a odpoveď je pre evanjelistov viacagentových systémov nepohodlná.

Štúdia

2026-05-31-single-agent-outperforms-multi-agent-equal-token-budget

Článok „Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets“ (arXiv:2604.02460) prináša klamlivo jednoduchý metodologický postreh: takmer všetky benchmarky viacagentových systémov porovnávajú jedného agenta s viacagentovým systémom, ktorý využíva výrazne viac výpočtov. Akonáhle zachováte rozpočet „thinking tokenov“ konštantný – pri zohľadnení len stredne pokročilých tokenov uvažovania a vylúčení promptov a finálnych odpovedí – jednoagentové systémy sa vyrovnajú alebo prekonajú viacagentové systémy v úlohách s multi-hop uvažovaním.

Autori to rámcujú informačno-teoretickým argumentom prostredníctvom Nerovnosti spracovania údajov (Data Processing Inequality – DPI). Keď jeden agent odovzdá správu druhému, prijímajúci agent pracuje so spracovanou verziou pôvodného kontextu, nie s kontextom samotným. V tomto reťazci sa informácia môže len stratiť alebo zostať rovnaká – nikdy nie získať. DPI preto predpovedá, že viacagentová dekompozícia vnáša nevyhnutné komunikačné úzke hrdlá a viacagentové systémy môžu prekonať jednoagentové systémy len vtedy, keď je efektívne využitie kontextu u jedného agenta už vopred degradované.

Kľúčové myšlienky

  • Štúdia kontroluje „thinking tokeny“ – len tokeny prechodného uvažovania – v rámci šiestich rozpočtov od 100 do 10 000 tokenov, pričom využíva tri rodiny modelov: Qwen3-30B, DeepSeek-R1-Distill-Llama-70B a Gemini 2.5.
  • Hodnotí sa päť viacagentových architektúr: sekvenčná, paralelná podľa podúloh, paralelná podľa rolí, debata a ansámbel (ensemble).
  • Použité benchmarky sú FRAMES (824 náročných multi-hop otázok vyžadujúcich integráciu z viacerých zdrojov) and MuSiQue (4-krokové otázky o svetových znalostiach).
  • Jednoagentové systémy dosiahli najvyššiu alebo štatisticky ekvivalentnú presnosť v takmer všetkých podmienkach s vyrovnaným rozpočtom. Presnosť SAS sa pohybovala v rozmedzí 0,280 – 0,427 naprieč rozpočtami; porovnateľné MAS varianty dosahovali priemer 0,280 – 0,420.
  • Charakteristickým zlyhaním MAS je nadmerná explorácia a odklon od témy (drift): agenti skúmajú podotázky bez ich pretriedenia a strácajú prehľad o pôvodnom dotaze. SAS si zachováva silnejšie lexikálne ukotvenie k pôvodnej otázke.
  • Predpoveď DPI platí empiricky: pri výraznej degradácii kontextu (maskovanie alebo nahrádzanie pri α=0,7) sa viacagentové systémy stávajú konkurencieschopnými – ale až vtedy.

Čo obstojí — a čo nie

Základná metodológia je správnym krokom. Táto oblasť má problém s reprodukovateľnosťou viacagentových benchmarkov práve preto, že výpočtový výkon sa málokedy drží na konštantnej úrovni, a trvanie autorov na zhodných rozpočtoch uvažovania je skutočným prínosom. Rámcovanie pomocou DPI je čisté a experimentálna predpoveď, ktorú generuje – že MAS pomáha, keď zlyháva využitie kontextu – je overená na troch rodinách modelov, čo pridáva na dôveryhodnosti.

Napriek tomu sú tu dôležité medzery. Článok hodnotí len textové multi-hop uvažovanie. Explicitne vylučuje používanie nástrojov (tools), spúšťanie kódu a vizuálne úlohy. Toto vylúčenie je významné: väčšina produkčných viacagentových systémov, ktoré sa reálne nasadzujú, nerobí čisté textové QA, ale orchestruje volania nástrojov, vyhľadávania cez API alebo interprety kódu naprieč agentmi. Argument DPI o odovzdávaní správ medzi agentmi je teoreticky aplikovateľný aj na tieto nastavenia, ale empirické tvrdenie tam zatiaľ nebolo overené.

Kontrola rozpočtu tokenov u Gemini je priznaná ako približná – autori vyvinuli špeciálny variant SAS-L so štruktúrovaným promptovaním, pretože kanál uvažovania Gemini sa v štandardnom jednoagentovom režime zdal nevyužitý. To je mätúci faktor, ktorý stojí za preskúmanie. Ak je účtovanie thinking tokenov nespoľahlivé u jednej z troch rodín modelov, tvrdenie o vyrovnanom rozpočte sa interpretuje ťažšie.

Dva benchmarky sú tiež málo na všeobecné tvrdenie o architektúre. FRAMES má len 824 otázok; MuSiQue je štandardný benchmark, ale nepokrýva celú rozmanitosť multi-hop štruktúr. Článok sa tiež nezaoberá tým, ako sa mení rozdiel medzi jedným a viacerými agentmi so škálovaním schopností modelov – výsledok môže byť vlastnosťou súčasných veľkostí modelov a nie fundamentálnym architektonickým zistením.

Prečo je to dôležité pre AI vo financiách

Prepojenie na Bean Labs je reálne, ale vyžaduje presnosť. Pre agenta na spätný zápis do Beancountu ma najviac zaujíma architektúra dvojice pisateľ-overovateľ: jeden agent vygeneruje záznam do účtovnej knihy, druhý ho pred potvrdením skontroluje z hľadiska súladu s pravidlami. To nie je multi-hop textové QA – je to sekvenčná pipeline používania nástrojov, kde overovateľ skúma navrhnutý artefakt, namiesto toho, aby znova spracovával ten istý pôvodný kontext. Argument DPI sa tu dá aplikovať voľne: samostatný overovací agent pracujúci s navrhovaným záznamom stále nedokáže obnoviť fakty, ktoré pisateľ zahodil. V praxi je však úzkym hrdlom vybavenie si pravidiel a aritmetická správnosť, nie strata informácií v správach.

Tento článok zasahuje priamejšie do debát o architektúrach spomínaných v predchádzajúcich záznamoch (Du et al., M3MAD-Bench). Ak je cieľom dvojica diskutujúcich agentov na zachytenie chýb v účtovnej knihe a ak majú obaja agenti rovnaký celkový rozpočet uvažovania ako jeden agent s rozšíreným uvažovaním, dôkazy tu naznačujú, že jednoagentový prístup je spoľahlivejší. Zistenie, že MAS je konkurencieschopné len pri silnej degradácii kontextu, je tiež dôležité: pre dobre štruktúrované záznamy v Beancounte, kde je kontext čistý a správne formátovaný, by mala platiť výhoda jedného agenta.

Praktickým ponaučením je pristupovať k zložitosti viacagentových systémov podozrievavo, pokiaľ nemáte konkrétny dôvod veriť, že úzkym hrdlom je využitie kontextu. Pri väčšine úloh QA nad účtovnou knihou to tak pravdepodobne nie je.

Čo si prečítať ďalej

  • Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.04692) — článok, ktorého tvrdenia na AlpacaEval táto štúdia najpriamejšie spochybňuje; stojí za prečítanie, aby ste pochopili, aké predpoklady o rozpočte robil.
  • "Rethinking the Bounds of LLM Reasoning: Are Multi-Agent Discussions the Key?" (arXiv:2402.18272, ACL 2024) — staršia verzia v podstate rovnakého zistenia: jeden agent s dobrými promptami sa vyrovná viacagentovej diskusii; užitočné pre sledovanie vývoja tejto kritiky.
  • Literatúra o škálovaní výpočtov v čase testovania (DeepSeek-R1, OpenAI o1 system card) — širšia otázka znie, kde dodatočný výpočtový výkon pri inferencii skutočne pomáha, pričom rozšírený reťazec myšlienok (chain-of-thought) v rámci jedného modelu môže byť robustnejšou odpoveďou.