Debat de LLM multiagent: guanys de precisió reals, còmput descontrolat i deliri col·lectiu
He estat pensant en la verificació multiagent per a la seguretat de l'escriptura (write-back) de Beancount; específicament, si un agent verificador pot debatre de manera significativa amb un agent escriptor abans que es confirmi un assentament al llibre major. Aquesta pregunta m'ha portat de tornada a l'article fonamental sobre el debat multiagent, que es va presentar com un article de l'ICML 2024 i que des de llavors ha atret un corpus útil de treballs de seguiment crítics.
L'article
"Improving Factuality and Reasoning in Language Models through Multiagent Debate" de Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum i Igor Mordatch proposa el que anomenen un enfocament de "societat de ments": diverses instàncies de LLM generen cadascuna una resposta inicial, després llegeixen el conjunt complet de respostes dels companys i actualitzen la seva resposta al llarg de diverses rondes. L'elecció de disseny clau és que l'enfocament només requereix accés de caixa negra a les sortides del model: sense gradients, sense ajust fi, sense canvis d'arquitectura. El proven en sis punts de referència (benchmarks): aritmètica, GSM8K, optimalitat de moviments d'escacs, factualitat biogràfica, MMLU i validesa dels moviments d'escacs.
La configuració de la qual informen més resultats és de 3 agents debatent durant 2 rondes. L'aposta conceptual és que el desacord obliga els agents a articular el seu raonament, mentre que la convergència indica una confiança genuïna més que una consistència afortunada.
Idees clau
- En aritmètica, el debat va assolir una precisió del 81,8% en comparació amb el 67,0% d'un agent únic i el 72,1% de la reflexió d'un agent únic; un guany de 14,8 punts respecte a la línia base.
- En GSM8K (matemàtiques de primària), 85,0% vs. 77,0% d'agent únic i 75,0% amb reflexió.
- En MMLU (100 preguntes distribuïdes en diverses àrees temàtiques), 71,1% vs. 63,9% d'agent únic i 57,7% amb reflexió.
- En factualitat biogràfica, 73,8% vs. 66,0% d'agent únic.
- El debat entre models (ChatGPT + Bard sobre 20 problemes de GSM8K) en va resoldre 17/20 vs. 11–14 per a qualsevol dels models individualment; el resultat més sorprenent de l'article perquè mostra agents heterogenis detectant els errors dels altres.
- El rendiment va escalar tant amb el nombre d'agents com amb el nombre de rondes fins a 4 rondes, amb rendiments decreixents més enllà d'aquest punt. Els indicadors (prompts) "llargs" que encoratjaven explícitament els agents a anar més a poc a poc abans del consens van superar constantment els indicadors curts.
Què es manté i què no
Els guanys són reals i la cobertura dels punts de referència és més àmplia que la de la majoria d'articles sobre indicadors. Crec en la troballa direccional: tenir diversos agents criticant-se entre si detecta més errors que un sol agent reflexionant sobre la seva pròpia sortida.
El problema és el que no està controlat. Tres agents debatent durant dues rondes suposen aproximadament 6 vegades el còmput d'inferència d'una sola crida, abans de tenir en compte el context més llarg. L'article mai presenta una línia base amb el mateix pressupost. L'autoconsistència —votació majoritària sobre moltes mostres independents d'un sol agent— és una comparació natural que l'article només aborda breument. Un article de 2025 (arXiv:2604.02460) realitza exactament aquest control en punts de referència de raonament de diversos salts (multi-hop) a través de Qwen3, DeepSeek-R1 i Gemini 2.5 amb pressupostos de tokens de raonament igualats, i troba que "els sistemes d'un sol agent poden igualar o superar els MAS" un cop s'iguala el còmput. Això és un desafiament directe a la tesi principal.
L'altre mode de fallada que l'article reconeix però infravalora és el que M3MAD-Bench (arXiv:2601.02854) anomena "deliri col·lectiu": en una anàlisi manual de 100 fallades de debat, el 65% implicava agents que es reforçaven mútuament respostes incorrectes en lloc de corregir-les. El mateix text de l'article assenyala que de vegades els agents "afirmen amb confiança que la seva resposta és correcta" fins i tot quan convergeixen en una resposta incorrecta. Quan tots els agents comparteixen la mateixa distribució d'entrenament —el cas homogeni— és probable que comparteixin els mateixos punts cecs. El debat llavors amplifica l'error en lloc de detectar-lo.
Una troballa relacionada del mateix article: la "conformitat incorrecta" representa una part no trivial de les fallades; un agent correcte abandona un raonament sòlid després de llegir respostes de companys que són errònies. Això és el contrari del que se suposa que ha de fer el marc de debat. És un recordatori que la dinàmica de persuasió en aquests bucles multiagent pot anar en qualsevol direcció.
Per què això és important per a la IA financera
L'arquitectura és realment atractiva per a la seguretat de l'escriptura (write-back) de Beancount: l'escriptor proposa un assentament comptable, el verificador el debat i el consens activa l'execució. L'anàlisi de riscos canvia segons el que estiguis escrivint. Per a una despesa rutinària de supermercat, el cost d'una ronda de debat no val la pena. Per a un assentament de tancament de l'exercici fiscal o una transferència entre empreses, és defensible tenir un segon agent escrutant els codis de compte i els imports abans de l'execució.
Però el deliri col·lectiu és especialment perillós per a la comptabilitat. Si tant l'agent escriptor com el verificador comparteixen la mateixa creença errònia sobre com es categoritza una deducció específica segons les regles d'una jurisdicció determinada, el debat confirma l'error en lloc de marcar-lo. El resultat de l'article amb diversos models dóna una pista sobre la solució: els agents heterogenis —diferents models, diferents indicadors de sistema o un agent basat en documentació externa— tenen més probabilitats de fer sortir a la llum desacords genuïns. M3MAD-Bench confirma que el "debat heterogeni col·laboratiu" supera substancialment les configuracions homogènies.
La multiplicació del còmput també és important a escala de producció. Deu edicions del llibre major per sessió × 3 agents × 2 rondes = 60 crides de LLM. Això és sostenible per a escriptures d'alt risc, però no per a la importació rutinària de transaccions. El disseny correcte és probablement un enfocament per nivells: una via ràpida d'agent únic per a entrades ben estructurades i el debat invocat només quan l'escriptor expressa incertesa o quan l'entrada afecta una classe de compte d'alta sensibilitat (passius fiscals, reserves, operacions intercompany).
Què llegir a continuació
- arXiv:2604.02460 — "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets": el desafiament publicat més clar als suposats avantatges de còmput del debat.
- arXiv:2601.02854 — M3MAD-Bench: avaluació a gran escala del debat a través de 9 models i 13 conjunts de dades, amb la taxonomia de fallades del deliri col·lectiu.
- arXiv:2406.09187 — GuardAgent: un agent de protecció que tradueix les polítiques de seguretat en codi executable; un enfocament més directe per a la seguretat de l'escriptura que el consens basat en el debat.
