Débat LLM multi-agents : Gains de précision réels, calcul incontrôlé et délire collectif
Je réfléchis à la vérification multi-agents pour la sécurité de l'écriture (write-back) dans Beancount — plus précisément, à la question de savoir si un agent vérificateur peut débattre de manière significative avec un agent rédacteur avant qu'une écriture dans le grand livre ne soit validée. Cette question m'a ramené au papier fondateur sur le débat multi-agents, présenté à l'ICML 2024, qui a depuis suscité un ensemble utile de travaux critiques de suivi.
L'article
"Improving Factuality and Reasoning in Language Models through Multiagent Debate" par Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum et Igor Mordatch propose ce qu'ils appellent une approche de "société de l'esprit" (society of minds) : plusieurs instances de LLM génèrent chacune une réponse initiale, puis lisent l'ensemble des réponses de leurs pairs et mettent à jour leur réponse sur plusieurs rounds. Le choix de conception clé est que l'approche ne nécessite qu'un accès boîte noire aux sorties des modèles — pas de gradients, pas de réglage fin (fine-tuning), pas de changements d'architecture. Ils testent cette méthode sur six benchmarks : l'arithmétique, GSM8K, l'optimalité des coups d'échecs, la factualité biographique, MMLU et la validité des coups d'échecs.
La configuration sur laquelle ils rapportent le plus de résultats est celle de 3 agents débattant pendant 2 rounds. Le pari conceptuel est que le désaccord force les agents à articuler leur raisonnement, tandis que la convergence signale une confiance réelle plutôt qu'une cohérence chanceuse.
Idées clés
- En arithmétique, le débat a atteint une précision de 81,8 % contre 67,0 % pour un agent unique et 72,1 % pour la réflexion par agent unique — un gain de 14,8 points par rapport à la base de référence.
- Sur GSM8K (mathématiques de niveau primaire), 85,0 % contre 77,0 % pour l'agent unique et 75,0 % avec réflexion.
- Sur MMLU (100 questions réparties sur plusieurs domaines), 71,1 % contre 63,9 % pour l'agent unique et 57,7 % avec réflexion.
- Sur la factualité biographique, 73,8 % contre 66,0 % pour l'agent unique.
- Le débat multi-modèles (ChatGPT + Bard sur 20 problèmes GSM8K) a résolu 17/20 problèmes contre 11–14 pour chaque modèle individuellement — le résultat le plus frappant de l'article car il montre des agents hétérogènes corrigeant les erreurs des uns et des autres.
- Les performances ont progressé avec le nombre d'agents et le nombre de rounds jusqu'à 4 rounds, avec des rendements décroissants au-delà. Les prompts "longs" encourageant explicitement les agents à ralentir avant d'atteindre un consensus ont systématiquement surpassé les prompts courts.
Ce qui tient la route — et ce qui ne tient pas
Les gains sont réels, et la couverture des benchmarks est plus large que celle de la plupart des articles sur le prompting. Je crois au résultat directionnel : avoir plusieurs agents qui se critiquent mutuellement permet de détecter plus d'erreurs qu'un seul agent réfléchissant sur sa propre production.
Le problème réside dans ce qui n'est pas contrôlé. Trois agents débattant pendant deux rounds signifient environ 6 fois le calcul d'inférence d'un seul appel, sans compter le contexte plus long. L'article ne présente jamais de base de référence à budget égal. L'auto-cohérence (self-consistency) — le vote majoritaire sur de nombreux échantillons indépendants d'un agent unique — est une comparaison naturelle que l'article n'aborde que brièvement. Un article de 2025 (arXiv:2604.02460) exécute exactement ce contrôle sur des benchmarks de raisonnement multi-étapes (multi-hop) à travers Qwen3, DeepSeek-R1 et Gemini 2.5 avec des budgets de jetons de raisonnement équivalents, et constate que "les systèmes à agent unique peuvent égaler ou surpasser les MAS" une fois le calcul égalisé. C'est un défi direct à l'affirmation principale.
L'autre mode de défaillance que l'article reconnaît mais sous-estime est ce que M3MAD-Bench (arXiv:2601.02854) appelle le "Délire Collectif" (Collective Delusion) : à travers une analyse manuelle de 100 échecs de débat, 65 % impliquaient des agents renforçant mutuellement des réponses erronées plutôt que de les corriger. Le texte même de l'article note que les agents "affirment parfois avec confiance que leur réponse est correcte" même lorsqu'ils convergent vers une réponse incorrecte. Lorsque tous les agents partagent la même distribution d'entraînement — le cas homogène — ils sont susceptibles de partager les mêmes angles morts. Le débat amplifie alors l'erreur au lieu de la détecter.
Une conclusion connexe du même article : la "Conformité Incorrecte" (Incorrect Conformity) représente une part non négligeable des échecs — un agent correct abandonne un raisonnement sain après avoir lu les réponses de ses pairs qui sont fausses. C'est l'opposé de ce que le cadre de débat est censé faire. C'est un rappel que la dynamique de persuasion dans ces boucles multi-agents peut fonctionner dans les deux sens.
Pourquoi cela compte pour l'IA financière
L'architecture est réellement séduisante pour la sécurité de l'écriture Beancount : un rédacteur propose une écriture comptable, un vérificateur en débat, et le consensus déclenche la validation (commit). L'analyse des risques change selon ce que vous écrivez. Pour une dépense d'épicerie courante, le coût d'un round de débat n'en vaut pas la peine. Pour une écriture de journal de fin d'exercice fiscal ou un transfert intersociétés, avoir un second agent qui scrute les codes de compte et les montants avant la validation est défendable.
Mais le Délire Collectif est particulièrement dangereux pour la comptabilité. Si l'agent rédacteur et l'agent vérificateur partagent la même croyance erronée sur la façon dont une déduction spécifique est catégorisée selon les règles d'une juridiction donnée, le débat confirme l'erreur plutôt que de la signaler. Le résultat multi-modèles de l'article suggère la solution : des agents hétérogènes — différents modèles, différents prompts système, ou un agent ancré dans une documentation externe — sont plus susceptibles de faire émerger un véritable désaccord. M3MAD-Bench confirme que le "débat hétérogène collaboratif" surpasse considérablement les configurations homogènes.
La multiplication du calcul importe également à l'échelle de la production. Dix modifications de grand livre par session × 3 agents × 2 rounds = 60 appels LLM. C'est soutenable pour des écritures à enjeux élevés, mais pas pour l'importation de transactions courantes. La bonne conception est probablement une approche hiérarchisée : un chemin rapide à agent unique pour les écritures bien structurées, et le débat invoqué uniquement lorsque le rédacteur exprime une incertitude ou lorsque l'écriture affecte une classe de comptes à haute sensibilité (passifs fiscaux, bénéfices non répartis, intersociétés).
Que lire ensuite
- arXiv:2604.02460 — "Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets" : le défi publié le plus clair contre les avantages de calcul revendiqués par le débat.
- arXiv:2601.02854 — M3MAD-Bench : évaluation à grande échelle du débat sur 9 modèles et 13 jeux de données, avec la taxonomie d'échec du Délire Collectif.
- arXiv:2406.09187 — GuardAgent : un agent de garde qui traduit les politiques de sécurité en code exécutable ; une approche plus directe de la sécurité de l'écriture que le consensus basé sur le débat.
