M3MAD-Bench: Zijn debatten tussen meerdere agenten echt effectief over verschillende domeinen en modaliteiten?
Ik lees momenteel M3MAD-Bench (arXiv:2601.02854) van Ao Li et al., de meest uitgebreide stresstest van debatten tussen meerdere agenten (Multi-Agent Debate) tot nu toe, die negen modellen, vijf domeinen en zowel tekst-als vision-language-omgevingen beslaat. Ik pakte dit op direct nadat ik het debat-paper van Du et al. had verwerkt, omdat de openstaande vraag daar was of de winst uit debatten generaliseerbaar is — en deze benchmark beantwoordt die vraag op een manier die iedereen die een verificatie-pijplijn met meerdere agenten ontwerpt, even zou moeten laten stilstaan.
Het onderzoek
Multi-Agent Debate (MAD) is het idee dat meerdere LLM-instanties hun collectieve antwoorden verbeteren door gedurende meerdere rondes voorstellen te doen, kritiek te leveren en reacties te herzien. Du et al. (ICML 2024) toonden absolute verbeteringen van 5–10% aan op GSM8K en MMLU met behulp van drie debatterende agenten, en het idee sloeg aan. M3MAD-Bench, van Ao Li en dertien mede-auteurs, onderzoekt of die winst standhoudt wanneer je tegelijkertijd evalueert op basis van domeinen, modaliteiten en realistische efficiëntiebeperkingen.
De benchmark beslaat vijf taakdomeinen — Kennis, Wiskunde, Geneeskunde, Natuurwetenschappen en Complex Redeneren — over zowel pure tekst- als vision-language-datasets, en evalueert zowel collaboratieve debatarchitecturen (LLM Debate, DMAD) als adversariële (Div-MAD). Naast nauwkeurigheid meten de auteurs het tokenverbruik en de inferentietijd om een beeld te krijgen van de prestaties per dollar, iets wat in eerder werk werd genegeerd.
Belangrijke inzichten
- Collaboratieve MAD kan beter presteren dan een baseline met een enkele agent bij taken die veel redenering vereisen: Qwen2.5-14B stijgt van 79,8% (standaard inferentie) naar 84,2% (LLM Debate) op MATH. Die +4,4% is aanzienlijk, maar het is ook het hoogtepunt — elders is de winst kleiner.
- Bij kennisgerichte benchmarks is de winst marginaal: Qwen2.5-14B op MMLU gaat van 64,0% naar 65,0%, een verschil dat gemakkelijk kan verdwijnen met een ander model of een andere evaluatie-seed.
- Adversarieel debat verslechtert de prestaties actief: Div-MAD laat LLaMA3.1-8B dalen van een baseline van 51,0% naar gemiddeld 38,2% — dat is een achteruitgang van -12,8%, geen verbetering.
- Het opschalen van het aantal agenten van 2 naar 6 toont een bescheiden positieve trend op MATH (53,4% → 56,6%), wat de auteurs toeschrijven aan een ensemble-effect en niet aan een werkelijke verfijning van de redenering.
- Het toevoegen van meer debatrondes helpt niet en werkt vaak averechts; de prestaties stagneren of gaan achteruit na ronde één.
- De dominante foutmodus is Collectieve Waan (Collective Delusion) (65% van de fouten): agenten versterken elkaars verkeerde aannames en vormen een hallucinatie-loop. Selectiefouten (Selection Failure) — waarbij correcte antwoorden wel naar boven komen maar de aggregator ze mist — zijn verantwoordelijk voor nog eens 17%.
- Tokenverbruik en inferentietijd nemen aanzienlijk toe met MAD, terwijl de winst in nauwkeurigheid bescheiden is. Een onafhankelijke ICLR 2025-analyse met een vergelijkbare methodologie vond voor Self-Consistency een score van 82,13% op MMLU, tegenover MAD-varianten die varieerden van 67,87% tot 80,40%. Op GSM8K scoorde SC 95,67% tegenover 90,87–94,93% voor MAD-methoden.
Wat houdt stand — en wat niet
De benchmark is methodologisch solide: negen modellen, meerdere domeinen, beide modaliteiten en efficiëntiestatistieken samen zijn meer gecontroleerd dan wat dan ook in eerder werk. De taxonomie van fouten is de meest nuttige bijdrage — het specifiek benoemen van Collectieve Waan is bruikbaarder dan vage beweringen dat "debat soms faalt".
Waar ik sceptisch over ben, is de reeks MAD-methoden die wordt behandeld. Het paper vergelijkt LLM Debate, DMAD en Div-MAD, maar bevat geen debatvarianten met expliciete verificatiestappen (zoals CRITIC of externe validators in de stijl van GuardAgent), wat juist de architecturen zijn die het meest relevant zijn voor write-back agenten. De bevinding dat "collaboratief beter is dan adversarieel" kan een uitspraak zijn over deze specifieke implementaties in plaats van over adversarieel debat in het algemeen. De resultaten maken ook geen onderscheid tussen de bijdrage van consensus-aggregatie en de bijdrage van iteratieve verfijning, waardoor het moeilijk is om te weten welk deel van LLM Debate het eigenlijke werk doet.
De bevindingen over efficiëntie zijn moeilijker te negeren: als Self-Consistency een vergelijkbare of betere nauwkeurigheid bereikt tegen lagere tokenkosten, dan zou de standaardkeuze voor productie-AI in de financiële sector waarschijnlijk SC moeten zijn, en niet MAD. Dat gezegd hebbende, vergelijkt het paper niet met chain-of-thought met een verifiëerder, wat de architectuur is waar ik de voorkeur aan zou geven voordat ik een volledig debat zou toevoegen.
Waarom dit belangrijk is voor financiële AI
De agenda van Bean Labs gaat ervan uit dat een schrijvende agent en een controlerende agent die debatteren voordat ze een boeking in het grootboek definitief maken, veiliger is dan een systeem dat alles in één keer doet. M3MAD-Bench onderwerpt die aanname aan een concrete stresstest. De bevinding over Collectieve Waan (65% van de fouten komt voort uit agenten die elkaars fouten versterken) is een directe waarschuwing: als zowel de schrijver als de controleur trainingsdata delen, zullen ze de neiging hebben om over dezelfde verkeerde transactiecategorie te hallucineren en elkaars fout te bevestigen. De fout wordt niet onderschept — hij wordt versterkt.
Specifiek voor Beancount write-back wijst dit in de richting van een controle-architectuur die gebruikmaakt van een externe status (het huidige saldo van het grootboek, accountbeperkingen, een onafhankelijke SQL-query) in plaats van puur overleg tussen LLM's onderling. Op tools gebaseerde verificatie — de CRITIC-aanpak — heeft niet op dezelfde manier last van Collectieve Waan, omdat de externe tool niet vatbaar is voor dezelfde vooroordelen in de trainingsdistributie. De resultaten in het medische domein in M3MAD-Bench hinten er ook op dat taken met zeer gespecialiseerde kennis minder profiteren van debat, wat te vertalen is naar dubbel boekhouden: de regels zijn deterministisch, en een agent die de regels al kent, wint niet veel door te discussiëren met een andere agent die dezelfde regels kent.
De bevinding over efficiëntie is van belang voor de implementatie: als MAD consequent meer tokens vereist met slechts marginale winst in nauwkeurigheid, dan bevoordelen de kosten per transactie voor een Beancount-agent SC of een tool-in-the-loop boven een debat tussen meerdere agenten.
Wat nu te lezen
- Du et al., "Improving Factuality and Reasoning in Language Models through Multiagent Debate," ICML 2024 (arXiv:2305.14325) — het fundamentele paper dat deze benchmark onder de loep neemt; het samen lezen van beide is de eerlijkste manier om te kalibreren hoeveel debat daadwerkelijk helpt.
- "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets" (arXiv:2604.02460) — het volgende item op de takenlijst, dat een formeel informatietheoretisch argument aanvoert tegen MAD onder condities met gelijke rekenkracht.
- "Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate" (arXiv:2509.05396) — een aanvullende taxonomie van foutmodi uit september 2025 die de analyse van Collectieve Waan uitbreidt met bewijs over hoe retoriek en sociale dynamiek groepsoutputs kunnen beïnvloeden.
