Auto-cohérence : l'échantillonnage par vote majoritaire améliore la précision de la chaîne de pensée
Le LOG-009 traitait de PAL, qui délègue l'arithmétique à un interpréteur Python afin que le modèle n'ait jamais à calculer. L'auto-cohérence (self-consistency) s'attaque au problème orthogonal : et si le modèle raisonnait correctement la plupart du temps, mais pas toujours ? La réponse s'avère être statistique, et non architecturale — et d'une efficacité déconcertante.
L'article
« Self-Consistency Improves Chain of Thought Reasoning in Language Models » par Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery et Denny Zhou (ICLR 2023, arXiv:2203.11171) introduit une stratégie de décodage qui remplace l'unique chemin glouton de la chaîne de pensée par un vote majoritaire sur de nombreux chemins échantillonnés. L'intuition est concise : un problème de raisonnement complexe a généralement une seule réponse correcte, mais de nombreux chemins valides pour y parvenir ; une réponse erronée est plus susceptible d'être atteinte par des erreurs idiosyncrasiques qui ne convergeront pas toutes vers la même méprise.
La méthode est prête à l'emploi (plug-and-play). Vous prenez n'importe quel prompt CoT que vous avez déjà, vous échantillonnez N complétions à une température non nulle, vous extrayez la réponse finale de chacune, et vous renvoyez la réponse majoritaire. Pas de réglage fin, pas de modèles supplémentaires, pas de labels humains additionnels.
Idées clés
- Taille de l'échantillon et température : L'article utilise 40 chemins de raisonnement par problème à une température de 0,7. Il ne s'agit pas d'un nombre magique optimisé par hyperparamètres — les ablations montrent que les gains stagnent après environ 20 à 30 échantillons, donc 40 est une valeur conservatrice.
- Gains principaux par rapport au CoT standard : GSM8K +17,9 %, SVAMP +11,0 %, AQuA +12,2 %, StrategyQA +6,4 %, ARC-challenge +3,9 % — toutes des améliorations de précision absolue, le tout avec le même modèle et le même prompt.
- Résultats GSM8K par modèle : Sur text-davinci-002 (GPT-3), l'auto-cohérence fait passer la précision de 78,7 % à 86,5 %. Sur Codex, de 74,5 % à 82,3 %. Les gains sont constants d'une famille de modèles à l'autre.
- Aucun coût d'entraînement : Tout se passe lors de l'inférence. L'approche fonctionne sur n'importe quelle API « boîte noire » où l'on peut échantillonner avec une température > 0.
- Vote majoritaire pour les réponses extractibles : L'étape d'agrégation fonctionne proprement lorsque les réponses sont discrètes (un nombre, un choix de lettre). Pour la génération ouverte, l'article est moins précis sur la définition de la « plus grande cohérence » — une limitation que les auteurs reconnaissent.
Ce qui tient la route — et ce qui ne la tient pas
Les gains empiriques sont réels, reproduits à maintes reprises, et la méthode est véritablement utile. Cependant, quelques faiblesses structurelles méritent un examen attentif.
Premièrement, le coût est linéaire par rapport au nombre d'échantillons. Échantillonner 40 chemins lors de l'inférence coûte 40 fois le budget de jetons d'un seul chemin. Pour les tâches où la latence et le coût de l'API comptent — comme un agent traitant des centaines de transactions par nuit — ce n'est pas négligeable. Des travaux ultérieurs (Early-Stopping Self-Consistency, ICLR 2024) traitent ce point : en s'arrêtant dès qu'un vote atteint un seuil de confiance, on peut réduire les échantillons de 80 % sur GSM8K sans perte de précision mesurable. L'article de base ne discute pas du tout du coût, ce qui est une omission curieuse.
Deuxièmement, l'hypothèse du vote majoritaire s'effondre lorsque le modèle se trompe systématiquement. Si le modèle interprète mal une conversion de devise particulière ou applique incorrectement une règle fiscale sur l'ensemble des 40 chemins, c'est la mauvaise réponse qui l'emporte. L'auto-cohérence amplifie l'erreur la plus commune, pas la réponse correcte. C'est le fossé épistémologique central : la méthode augmente la précision au sein de la distribution de croyance du modèle, mais elle ne fait rien pour le calibrage lorsque cette distribution est centrée sur une mauvaise réponse.
Troisièmement, Wang & Wang (2025, arXiv:2503.16974) étudient directement la cohérence des LLM dans les tâches de finance et de comptabilité sur 50 exécutions indépendantes. Ils constatent que la classification binaire et l'analyse de sentiment sont déjà presque parfaitement reproductibles avec un seul échantillon, tandis que les tâches complexes (prédiction, génération) présentent une réelle variabilité. Leur conclusion pratique : agréger seulement 3 à 5 exécutions améliore considérablement la cohérence pour les tâches complexes — une version bien moins coûteuse de la même idée que l'auto-cohérence.
Pourquoi cela compte pour l'IA en finance
Les opérations du grand livre Beancount qui impliquent une arithmétique en plusieurs étapes — calculs fiscaux, base de coût ajustée aux devises (FX), tableaux d'amortissement, rapprochement de factures — sont exactement le genre de tâches où un seul décodage glouton n'est pas fiable, mais où la réponse correcte est unique et vérifiable. L'auto-cohérence est une intervention peu coûteuse qui devrait être le réglage par défaut pour toute tâche d'agent financier où la sortie peut être vérifiée (le bilan comptable est-il toujours équilibré ?).
L'implication la plus intéressante est architecturale. L'auto-cohérence transforme l'inférence en un ensemble de vote. Pour la sécurité de l'écriture — un agent qui enregistre des écritures comptables dans un journal — je voudrais conditionner l'action à la confiance majoritaire : ne valider que si 35 chemins sur 40 sont d'accord. Un désaccord est un signal indiquant que l'agent devrait passer la main à un humain plutôt que d'écrire. Il s'agit d'un garde-fou concret et facile à mettre en œuvre qui consomme du budget d'inférence, mais n'augmente pas la complexité technique.
Le mode de défaillance par biais systématique est particulièrement important pour les règles fiscales et réglementaires où les modèles sont connus pour halluciner des détails spécifiques à certaines juridictions. Dans ces cas, PAL (LOG-009) est la solution appropriée : déléguer entièrement le calcul. L'auto-cohérence et PAL sont complémentaires — PAL gère l'exactitude arithmétique ; l'auto-cohérence gère l'ambiguïté et la fiabilité du raisonnement.
Lectures complémentaires
- Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — étend l'auto-cohérence du vote sur les chemins à la recherche sur les chemins, ce qui est crucial lorsque l'espace de raisonnement est arborescent plutôt que parallèle.
- Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — la solution au problème de coût ; réduit l'échantillonnage de plus de 80 % sur GSM8K tout en préservant la précision.
- Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — étend le vote majoritaire à la génération ouverte en utilisant un juge LLM, comblant ainsi le vide sur l'agrégation que l'article original contourne.
