Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden
Ik heb nagedacht over multi-agent verificatie voor de write-back veiligheid van Beancount — specifiek of een 'checker'-agent zinvol kan debatteren met een 'writer'-agent voordat een grootboekmutatie (ledger commit) wordt doorgevoerd. Die vraag bracht me terug naar het fundamentele artikel over multi-agent debatten, dat werd gepresenteerd op ICML 2024 en sindsdien een nuttige verzameling kritisch vervolgonderzoek heeft aangetrokken.
Het artikel
"Improving Factuality and Reasoning in Language Models through Multiagent Debate" door Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum en Igor Mordatch stelt een zogenaamde "society of minds"-benadering voor: meerdere LLM-instanties genereren elk een initiële reactie, lezen vervolgens de volledige set van reacties van hun peers en werken hun antwoord bij gedurende meerdere rondes. De belangrijkste ontwerpkeuze is dat de aanpak alleen black-box toegang tot modeloutputs vereist — geen gradiënten, geen fijnafstemming (fine-tuning), geen architectuurwijzigingen. Ze testen dit op zes benchmarks: rekenen, GSM8K, optimaliteit van schaakzetten, biografische factualiteit, MMLU en de geldigheid van schaakzetten.
De opstelling waarover ze de meeste resultaten rapporteren, bestaat uit 3 agents die 2 rondes debatteren. De conceptuele gok is dat onenigheid agents dwingt om hun redenering te articuleren, terwijl convergentie wijst op echt vertrouwen in plaats van toevallige consistentie.
Kernideeën
- Bij rekenen bereikte het debat een nauwkeurigheid van 81,8% tegenover 67,0% voor een enkele agent en 72,1% voor reflectie door een enkele agent — een winst van 14,8 punten ten opzichte van de basislijn.
- Op GSM8K (wiskunde basisschoolniveau): 85,0% vs. 77,0% voor een enkele agent en 75,0% met reflectie.
- Op MMLU (100 vragen verspreid over verschillende vakgebieden): 71,1% vs. 63,9% voor een enkele agent en 57,7% met reflectie.
- Op biografische factualiteit: 73,8% vs. 66,0% voor een enkele agent.
- Debat tussen verschillende modellen (ChatGPT + Bard over 20 GSM8K-problemen) loste 17/20 op vs. 11–14 voor elk model afzonderlijk — het meest opvallende resultaat in het artikel, omdat het laat zien dat heterogene agents elkaars fouten corrigeren.
- De prestaties schaalden met zowel het aantal agents als het aantal rondes tot en met 4 rondes, met afnemende meeropbrengsten daarna. "Lange" prompts die agents expliciet aanmoedigen om te vertragen voordat ze tot een consensus komen, presteerden consequent beter dan korte prompts.
Wat standhoudt — en wat niet
De winst is reëel en de dekking van de benchmarks is breder dan in de meeste artikelen over prompting. Ik geloof in de directionele bevinding: meerdere agents die elkaars werk bekritiseren, vangen meer fouten op dan een enkele agent die reflecteert op zijn eigen output.
Het probleem is wat niet gecontroleerd wordt. Drie agents die twee rondes debatteren, betekent ongeveer 6× de rekenkracht (inference compute) van een enkele aanroep, nog afgezien van de langere context. Het artikel presenteert nergens een basislijn met een gelijk budget. Zelf-consistentie (self-consistency) — meerderheidsstemming over vele onafhankelijke samples van een enkele agent — is een natuurlijke vergelijking die in het artikel slechts kort wordt aangestipt. Een artikel uit 2025 (arXiv:2604.02460) voert precies deze controle uit op multi-hop redeneer-benchmarks met Qwen3, DeepSeek-R1 en Gemini 2.5 met gelijke budgetten voor redeneertokens, en ontdekt dat "systemen met één agent de MAS (multi-agent systemen) kunnen evenaren of overtreffen" zodra de rekenkracht is gelijkgetrokken. Dat is een directe uitdaging voor de belangrijkste claim.
De andere faalmodus die het artikel erkent maar onderwaardeert, is wat M3MAD-Bench (arXiv:2601.02854) "Collectieve Waanbeelden" (Collective Delusion) noemt: uit een handmatige analyse van 100 debatmislukkingen bleek dat in 65% van de gevallen agents elkaars verkeerde antwoorden versterkten in plaats van ze te corrigeren. De eigen tekst van het artikel merkt op dat agents soms "met vertrouwen bevestigen dat hun antwoord correct is", zelfs wanneer ze convergeren naar een onjuist antwoord. Wanneer alle agents dezelfde trainingsdistributie delen — het homogene geval — is de kans groot dat ze dezelfde blinde vlekken delen. Het debat versterkt dan de fout in plaats van deze te ontdekken.
Een gerelateerde bevinding uit hetzelfde artikel: "Onjuiste Conformiteit" (Incorrect Conformity) is verantwoordelijk voor een aanzienlijk deel van de mislukkingen — een correcte agent verlaat een gezonde redenering na het lezen van reacties van peers die fout zijn. Dit is precies het tegenovergestelde van wat het debat-raamwerk zou moeten doen. Het is een herinnering dat de overtuigingsdynamiek in deze multi-agent loops beide kanten op kan gaan.
Waarom dit belangrijk is voor financiële AI
De architectuur is oprecht aantrekkelijk voor de write-back veiligheid van Beancount: een 'writer' stelt een boeking voor, een 'checker' debatteert erover, en consensus activeert de commit. De risicoanalyse verandert afhankelijk van wat je boekt. Voor een dagelijkse boodschappenuitgave is de kostprijs van een debatronde niet de moeite waard. Voor een eindejaarsjournaalpost of een intercompany-overboeking is het verdedigbaar om een tweede agent de rekeningcodes en bedragen kritisch te laten controleren voor de commit.
Maar Collectieve Waanbeelden zijn bijzonder gevaarlijk voor boekhouding. Als zowel een 'writer'- als een 'checker'-agent dezelfde verkeerde overtuiging delen over hoe een specifieke aftrekpost wordt gecategoriseerd onder de regels van een bepaald rechtsgebied, bevestigt het debat de fout in plaats van deze te signaleren. Het resultaat van het artikel over cross-model debatten suggereert de oplossing: heterogene agents — verschillende modellen, verschillende system-prompts, of één agent die is gebaseerd op externe documentatie — hebben meer kans om echte onenigheid aan het licht te brengen. M3MAD-Bench bevestigt dat "collaboratief heterogeen debat" aanzienlijk beter presteert dan homogene opstellingen.
De vermenigvuldiging van rekenkracht doet er ook toe op productieschaal. Tien grootboekbewerkingen per sessie × 3 agents × 2 rondes = 60 LLM-aanroepen. Dat is houdbaar voor boekingen met een hoog risico, maar niet voor het routinematig importeren van transacties. Het juiste ontwerp is waarschijnlijk een gelaagde aanpak: een snel pad met één agent voor goed gestructureerde boekingen, en een debat dat alleen wordt opgeroepen wanneer de 'writer' onzekerheid uitdrukt of wanneer de boeking invloed heeft op een zeer gevoelige rekeningklasse (belastingverplichtingen, ingehouden winsten, intercompany).
Verder lezen
- arXiv:2604.02460 — "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets": de scherpste gepubliceerde uitdaging voor de geclaimde rekenvoordelen van debatten.
- arXiv:2601.02854 — M3MAD-Bench: grootschalige evaluatie van debatten over 9 modellen en 13 datasets, met de taxonomie van Collective Delusion-fouten.
- arXiv:2406.09187 — GuardAgent: een guard-agent die veiligheidsbeleid vertaalt naar uitvoerbare code; een directere benadering van write-back veiligheid dan op debat gebaseerde consensus.
