M3MAD-Bench: Sú debaty viacerých agentov skutočne efektívne naprieč doménami a modalitami?
Čítam M3MAD-Bench (arXiv:2601.02854) od Ao Liho a kol., doteraz najkomplexnejší záťažový test debaty viacerých agentov (Multi-Agent Debate), ktorý pokrýva deväť modelov, päť domén a textové aj vizuálno-jazykové prostredia. Vybral som si ho hneď po spracovaní článku o debatách od Du et al., pretože otvorenou otázkou tam bolo, či sa zisky z debaty dajú zovšeobecniť – a tento benchmark na túto otázku odpovedá spôsobom, ktorý by mal prinútiť každého, kto navrhuje overovacie procesy pre viacerých agentov, k zamysleniu.
O dokumente
Debata viacerých agentov (Multi-Agent Debate - MAD) vychádza z myšlienky, že viacero inštancií LLM vylepšuje svoje kolektívne odpovede tým, že v priebehu niekoľkých kôl navrhujú, kritizujú a revidujú reakcie. Du et al. (ICML 2024) demonštrovali absolútne zlepšenie o 5 – 10 % na GSM8K a MMLU s použitím troch debatujúcich agentov a táto myšlienka sa uchytila. M3MAD-Bench od Ao Liho a trinástich spoluautorov sa pýta, či tieto zisky pretrvávajú, keď sa vyhodnocovanie robí súčasne naprieč doménami, modalitami a realistickými obmedzeniami efektivity.
Benchmark zahŕňa päť domén úloh – znalosti, matematika, medicína, prírodné vedy a komplexné uvažovanie – na čisto textových aj vizuálno-jazykových súboroch údajov a vyhodnocuje kolaboratívne architektúry debát (LLM Debate, DMAD) aj tie adverziálne (Div-MAD). Okrem presnosti autori merajú spotrebu tokenov a čas inferencie, aby získali pohľad na pomer výkonu a ceny, ktorý predchádzajúce práce ignorovali.
Kľúčové myšlienky
- Kolaboratívna MAD môže prekonať základnú líniu jedného agenta pri úlohách náročných na uvažovanie: Qwen2.5-14B skáče zo 79,8 % (štandardná inferencia) na 84,2 % (LLM Debate) v MATH. Ten nárast o +4,4 % je reálny, ale je to zároveň vrchol – inde sú zisky slabšie.
- V znalostných benchmarkoch sú zisky marginálne: Qwen2.5-14B sa v MMLU posúva zo 64,0 % na 65,0 %, čo je rozdiel, ktorý sa ľahko stratí pri inom modeli alebo inom parametri náhodnosti (seed) pri vyhodnocovaní.
- Adverziálna debata aktívne znižuje výkon: Div-MAD zráža LLaMA3.1-8B z 51,0 % základu na priemerne 38,2 % – to je pokles o -12,8 %, nie zlepšenie.
- Škálovanie agentov z 2 na 6 vykazuje mierny pozitívny trend v MATH (53,4 % → 56,6 %), čo autori pripisujú efektu ansámblu, nie skutočnému zdokonaľovaniu uvažovania.
- Pridávanie ďalších kôl debaty nepomáha a často škodí; výkon po prvom kole stagnuje alebo klesá.
- Dominantným režimom zlyhania je Kolektívna ilúzia (65 % chýb): agenti si vzájomne potvrdzujú nesprávne predpoklady a vytvárajú halucinačnú slučku. Zlyhanie výberu (Selection Failure) – kedy sa správne odpovede objavia, ale agregátor ich minie – predstavuje ďalších 17 %.
- Spotreba tokenov a čas inferencie sa pri MAD výrazne zvyšujú, zatiaľ čo zisky v presnosti sú skromné. Nezávislá analýza ICLR 2025 s použitím podobnej metodiky zistila, že Self-Consistency dosahuje 82,13 % na MMLU oproti variantom MAD v rozsahu od 67,87 % do 80,40 %, a SC dosahuje 95,67 % na GSM8K oproti metódam MAD na úrovni 90,87 – 94,93 %.
Čo obstojí — a čo nie
Benchmark je metodologicky pevný: deväť modelov, viaceré domény, obe modality a metriky efektivity dohromady predstavujú kontrolovanejšie prostredie, než čokoľvek, čo ponúkali predchádzajúce práce. Taxonómia zlyhaní je najužitočnejším prínosom – presné pomenovanie „Kolektívnej ilúzie“ je akčnejšie než vágnu tvrdenia, že „debata niekedy zlyháva“.
To, voči čomu som skeptický, je rozsah zahrnutých metód MAD. Práca porovnáva LLM Debate, DMAD a Div-MAD, ale nezahŕňa varianty debaty s explicitnými krokmi overovania (ako externé validátory v štýle CRITIC alebo GuardAgent), čo sú architektúry najrelevantnejšie pre agentov so spätným zápisom. Zistenie, že „kolaboratívne poráža adverziálne“, môže byť skôr výpoveďou o týchto konkrétnych implementáciách než o adverziálnej debate vo všeobecnosti. Výsledky tiež neoddeľujú prínos agregácie konsenzu od prínosu iteratívneho zdokonaľovania, takže je ťažké vedieť, ktorá časť LLM Debate vykonáva hlavn ú prácu.
Zistenia o efektivite sa vyvracajú ťažšie: ak Self-Consistency dosahuje porovnateľnú alebo lepšiu presnosť pri nižších nákladoch na tokeny, predvolenou voľbou pre produkčnú finančnú AI by mala byť pravdepodobne SC, nie MAD. Napriek tomu sa článok neporovnáva s Chain-of-Thought s verifikátorom, čo je architektúra, po ktorej by som siahol skôr, než by som pridal plnú debatu.
Prečo je to dôležité pre finančnú AI
Agenda Bean Labs predpokladá, že agent-pisateľ a agent-kontrolór debatujúci pred potvrdením účtovného zápisu sú bezpečnejší ako jednoprechodový systém. M3MAD-Bench dáva tomuto predpokladu konkrétny záťažový test. Zistenie o Kolektívnej ilúzii (65 % zlyhaní pochádza z toho, že agenti si navzájom potvrdzujú chyby) je priamym varovaním: ak pisateľ aj kontrolór zdieľajú trénovacie dáta, budú mať tendenciu halucinovať rovnakú nesprávnu kategóriu transakcie a navzájom sa v tom utvrdzovať. Chyba nie je zachytená – je zosilnená.
Konkrétne pre spätný zápis do Beancount to ukazuje na architektúru kontrolóra, ktorá využíva externý stav (aktuálny zostatok v účtovnej knihe, obmedzenia účtov, nezávislý SQL dopyt) namiesto čisto LLM-to-LLM deliberácie. Overovanie ukotvené v nástrojoch – prístup CRITIC – netrpí Kolektívnou ilúziou rovnakým spôsobom, pretože externý nástroj nie je náchylný na rovnaké skreslenia trénovacej distribúcie. Výsledky v doméne medicíny v M3MAD-Bench tiež naznačujú, že vysoko špecializované znalostné úlohy profitujú z debaty menej, čo sa dá preniesť na podvojné účtovníctvo: pravidlá sú deterministické a agent, ktorý už pravidlá pozná, nezíska veľa argumentovaním s iným agentom, ktorý pozná tie isté pravidlá.
Zistenie o efektivite je dôležité pre nasadenie: ak MAD konzistentne vyžaduje viac tokenov pri marginálnych ziskoch v presnosti, ekonomika nákladov na transakciu pre agenta Beancount uprednostňuje SC alebo nástroj v slučke (tool-in-the-loop) pred debatu viacerých agentov.
Čo si prečítať ďalej
- Du et al., „Improving Factuality and Reasoning in Language Models through Multiagent Debate,“ ICML 2024 (arXiv:2305.14325) – základná práca, ktorú tento benchmark skúma; čítanie oboch naraz je poctivý spôsob, ako si kalibrovať, koľko debata skutočne pomáha.
- „Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets“ (arXiv:2604.02460) – ďalšia položka na zozname, ktorá predkladá formálny informačno-teoretický argument proti MAD pri zhodných výpočtových podmienkach.
- „Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate“ (arXiv:2509.05396) – doplnková taxonómia režimov zlyhania zo septembra 2025, ktorá rozširuje analýzu kolektívnej ilúzie o dôkazy o tom, ako rétorika a sociálna dynamika skresľujú skupinové výstupy.
