Prejsť na hlavný obsah

Debata viacerých agentov LLM: Skutočné zisky presnosti, nekontrolovaný výpočtový výkon a kolektívny klam

· 5 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Premýšľal som o multiagentovom overovaní bezpečnosti spätného zápisu v Beancount – konkrétne o tom, či agent kontrolór môže zmysluplne debatovať s agentom zapisovateľom pred vykonaním zápisu do účtovnej knihy. Táto otázka ma priviedla späť k základnému článku o debate viacerých agentov, ktorý bol publikovaný na ICML 2024 a odvtedy prilákal užitočný súbor kritických nadväzujúcich prác.

Článok

2026-05-24-multiagent-debate-factuality-reasoning-llms

Článok „Improving Factuality and Reasoning in Language Models through Multiagent Debate“ od Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum a Igor Mordatch navrhuje prístup, ktorý nazývajú „spoločnosť myslí“ (society of minds): viaceré inštancie LLM vygenerujú počiatočnú odpoveď, potom si prečítajú celý súbor odpovedí rovesníkov a aktualizujú svoju odpoveď v priebehu viacerých kôl. Kľúčovým dizajnovým rozhodnutím je, že tento prístup vyžaduje len prístup k výstupom modelu ako k čiernej skrinke – žiadne gradienty, žiadne jemné doladenie, žiadne zmeny architektúry. Testujú ho na šiestich benchmarkoch: aritmetika, GSM8K, optimalita šachových ťahov, biografická fakticita, MMLU a platnosť šachových ťahov.

Nastavenie, o ktorom uvádzajú najviac výsledkov, sú 3 agenti debatujúci v 2 kolách. Koncepčným predpokladom je, že nesúhlas núti agentov formulovať svoje uvažovanie, zatiaľ čo konvergencia signalizuje skutočnú istotu a nie len náhodnú zhodu.

Kľúčové myšlienky

  • V aritmetike dosiahla debata presnosť 81,8 % v porovnaní so 67,0 % u jedného agenta a 72,1 % pri reflexii jedného agenta – čo predstavuje 14,8-bodový nárast oproti základni.
  • V GSM8K (matematika pre základné školy) 85,0 % oproti 77,0 % u jedného agenta a 75,0 % s reflexiou.
  • V MMLU (100 otázok rozdelených do rôznych tematických oblastí) 71,1 % oproti 63,9 % u jedného agenta a 57,7 % s reflexiou.
  • V biografickej fakticite 73,8 % oproti 66,0 % u jedného agenta.
  • Debata medzi rôznymi modelmi (ChatGPT + Bard na 20 problémoch GSM8K) vyriešila 17/20 v porovnaní s 11–14 u každého modelu samostatne – čo je najpozoruhodnejší výsledok v článku, pretože ukazuje, ako heterogénni agenti vzájomne odchytávajú svoje chyby.
  • Výkon sa škáloval s počtom agentov aj s počtom kôl až do 4 kôl, pričom potom výnosy klesali. „Dlhé“ prompty, ktoré explicitne nabádali agentov, aby pred dosiahnutím konsenzu spomalili, konzistentne prekonávali krátke prompty.

Čo obstojí – a čo nie

Zisky sú reálne a pokrytie benchmarkov je širšie ako vo väčšine článkov o promptingu. Verím smerovému zisteniu: to, že sa viacerí agenti navzájom kritizujú, zachytí viac chýb, než keď jeden agent reflektuje svoj vlastný výstup.

Problémom je to, čo nie je kontrolované. Traja agenti debatujúci v dvoch kolách znamenajú zhruba 6-násobok inferenčného výpočtového výkonu oproti jednému volaniu, a to ešte pred započítaním dlhšieho kontextu. Článok nikdy neuvádza porovnanie so základňou s rovnakým rozpočtom. Sebakonzistencia (self-consistency) – väčšinové hlasovanie nad mnohými nezávislými vzorkami jedného agenta – je prirodzeným porovnaním, ktorému sa článok venuje len stručne. Článok z roku 2025 (arXiv:2604.02460) vykonáva presne túto kontrolu na benchmarkoch viackrokového uvažovania naprieč modelmi Qwen3, DeepSeek-R1 a Gemini 2.5 s rovnakými rozpočtami na tokeny uvažovania a zisťuje, že „systémy s jedným agentom sa môžu vyrovnať alebo prekonať MAS“ (multiagentové systémy), akonáhle sa výpočtový výkon vyrovná. To je priama výzva pre hlavné tvrdenie.

Ďalším režimom zlyhania, ktorý článok priznáva, ale podceňuje, je to, čo M3MAD-Bench (arXiv:2601.02854) nazýva „Kolektívny klam“ (Collective Delusion): v rámci manuálnej analýzy 100 zlyhaní debaty sa v 65 % prípadov agenti vzájomne utvrdzovali v nesprávnych odpovediach namiesto toho, aby ich opravili. Samotný text článku uvádza, že agenti niekedy „sebavedomo potvrdzujú, že ich odpoveď je správna“, aj keď konvergujú k nesprávnej odpovedi. Keď všetci agenti zdieľajú rovnakú tréningovú distribúciu – v homogénnom prípade – je pravdepodobné, že budú zdieľať aj rovnaké slepé miesta. Debata potom chybu skôr zosilní, než aby ju zachytila.

Súvisiace zistenie z rovnakého článku: „Nesprávna konformita“ (Incorrect Conformity) predstavuje netriviálny podiel zlyhaní – správny agent opustí logické uvažovanie po prečítaní odpovedí rovesníkov, ktoré sú nesprávne. To je presný opak toho, čo má rámec debaty robiť. Je to pripomienka, že dynamika presviedčania v týchto multiagentových slučkách môže fungovať oboma smermi.

Prečo je to dôležité pre finančnú AI

Architektúra je skutočne príťažlivá pre bezpečnosť spätného zápisu v Beancount: zapisovateľ navrhne účtovný zápis, kontrolór o ňom debatuje a konsenzus spustí zápis (commit). Analýza rizík sa mení v závislosti od toho, čo zapisujete. Pri bežnom výdavku na potraviny nestojí cena za kolo debaty za to. Pri internom doklade k uzávierke daňového roka alebo vnútropodnikovom prevode je opodstatnené mať druhého agenta, ktorý pred zápisom preverí kódy účtov a sumy.

Kolektívny klam je však pre účtovníctvo obzvlášť nebezpečný. Ak agent zapisovateľ aj agent kontrolór zdieľajú rovnaké nesprávne presvedčenie o tom, ako sa špecifický odpočet kategorizuje podľa pravidiel danej jurisdikcie, debata chybu skôr potvrdí, než aby na ňu upozornila. Vlastný výsledok článku o debate medzi rôznymi modelmi naznačuje riešenie: heterogénni agenti – rôzne modely, rôzne systémové prompty alebo jeden agent opierajúci sa o externú dokumentáciu – majú väčšiu šancu odhaliť skutočný nesúhlas. M3MAD-Bench potvrdzuje, že „kolaboratívna heterogénna debata“ podstatne prekonáva homogénne nastavenia.

Multiplikácia výpočtového výkonu je dôležitá aj pri produkčnom meradle. Desať úprav účtovnej knihy na reláciu × 3 agenti × 2 kolá = 60 volaní LLM. To je udržateľné pre vysoko rizikové zápisy, ale nie pre bežný import transakcií. Správnym dizajnom je pravdepodobne stupňovitý prístup: rýchla cesta s jedným agentom pre dobre štruktúrované zápisy a debata vyvolaná len vtedy, keď zapisovateľ vyjadrí neistotu alebo keď zápis ovplyvňuje vysoko citlivú triedu účtov (daňové záväzky, nerozdelený zisk, vnútropodnikové vzťahy).

Čo si prečítať ďalej

  • arXiv:2604.02460 — „Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets“: najčistejšia publikovaná výzva voči deklarovaným výpočtovým výhodám debaty.
  • arXiv:2601.02854 — M3MAD-Bench: rozsiahle vyhodnotenie debaty na 9 modeloch a 13 dátových súboroch s taxonómiou zlyhaní Kolektívneho klamu.
  • arXiv:2406.09187 — GuardAgent: ochranný agent, ktorý prekladá bezpečnostné politiky do spustiteľného kódu; priamejší prístup k bezpečnosti spätného zápisu než konsenzus založený na debate.