Aller au contenu principal

Prompting Chain-of-Thought : Compromis Précision-Rappel pour l'IA en Finance

· 6 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

Je relis l'article de 2022 de Wei et al. sur la chaîne de pensée (Chain-of-Thought, CoT) (arXiv:2201.11903) avec une question spécifique en tête : des expériences antérieures ont montré que le prompting CoT améliorait la précision mais nuisait au rappel lors de la détection d'anomalies financières. L'article devrait expliquer pourquoi — ou du moins me donner suffisamment d'intuition mécaniste pour formuler une hypothèse.

L'article

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" par Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma et leurs collègues (Google Brain) est l'article qui a fait connaître la CoT. L'idée est simple : au lieu de demander à un modèle de sauter directement à une réponse, on lui montre quelques exemples où la réponse est précédée d'une trace de raisonnement écrite. Le modèle produit ensuite sa propre trace de raisonnement avant de répondre.

L'article teste cette méthode sur des tâches d'arithmétique (GSM8K, SVAMP, AQuA), de bon sens (CommonsenseQA, StrategyQA) et de raisonnement symbolique (concaténation de lettres, pile ou face) à travers trois grands modèles de langage — PaLM 540B, GPT-3 175B et LaMDA 137B — et les compare au prompting standard en quelques exemples (few-shot).

Idées clés

  • GSM8K (problèmes mathématiques textuels) : le prompting standard avec PaLM 540B obtient 17,9 % ; la CoT obtient 56,9 %, soit un bond de 39 points. C'est un gain impressionnant sur un benchmark difficile, et c'est le résultat phare pour lequel l'article est justement connu.
  • Concaténation de lettres : standard 7,6 %, CoT 99,4 %. Pour la manipulation symbolique pure, la CoT résout essentiellement la tâche à grande échelle.
  • CommonsenseQA : standard 78,1 %, CoT 79,9 %. Gain minimal. Les tâches qui ne nécessitent pas d'inférence en plusieurs étapes n'en bénéficient pas beaucoup.
  • Le seuil d'échelle : la CoT n'aide de manière fiable qu'à partir d'environ 100 milliards de paramètres. En dessous de ~10 milliards, l'ajout d'une trace de raisonnement est souvent préjudiciable — le modèle produit des "chaînes de pensée fluides mais illogiques" qui l'égarent activement.
  • Les tâches simples ne présentent aucun avantage : sur MAWPS SingleOp (arithmétique en une étape), PaLM 540B a obtenu 94,1 % avec le prompting standard et la CoT. Le surcoût du raisonnement n'apporte aucune valeur lorsque la tâche ne nécessite pas réellement d'inférence en plusieurs étapes.
  • Aucune garantie d'exactitude : les auteurs précisent explicitement qu'un LLM peut produire une trace de raisonnement cohérente en apparence mais menant à une réponse erronée. La trace et la réponse sont générées conjointement, et aucune n'est vérifiée indépendamment.

Ce qui tient la route — et ce qui ne la tient pas

Les résultats empiriques tiennent la route. Les gains sur GSM8K sont répliqués dans des travaux ultérieurs, le seuil d'échelle correspond à ce qui a été observé ailleurs, et les chiffres du raisonnement symbolique sont cohérents avec ce que l'on attend des mécanismes d'apprentissage en contexte (in-context learning). Cet article a fait de la vraie science.

Ce que je trouve peu exploré, c'est l'asymétrie précision/rappel. Wei et al. présentent des chiffres d'exactitude agrégés — ils ne détaillent pas les taux de faux positifs par rapport aux faux négatifs. Mais si l'on réfléchit à la manière dont la CoT modifie la distribution des réponses, le mécanisme est suggestif : la CoT incite le modèle à générer et à s'engager dans un chemin de raisonnement. Ce rétrécissement de l'espace de génération augmente probablement la spécificité (précision) au détriment de la couverture (rappel). Le modèle produit moins de réponses globalement, et celles qu'il produit ont tendance à être mieux justifiées — mais il peut passer à côté de réponses correctes qui ne s'inscrivent pas dans un récit étape par étape bien net. Pour la détection d'anomalies dans les données financières, où la classe "anomalie" est rare et atypique par définition, c'est exactement le mode d'échec auquel on pourrait s'attendre.

L'article laisse également la question mécaniste ouverte. Les auteurs prennent soin de ne pas affirmer que le modèle "raisonne réellement" au sens strict. La question de savoir si la CoT suscite une véritable inférence en plusieurs étapes ou un raccourci sophistiqué de reconnaissance de formes imitant une telle inférence n'est pas résolue. Un rapport de Wharton de 2025 testant des modèles de raisonnement modernes (o3-mini, o4-mini) a révélé que les instructions CoT explicites ne produisaient que 2 à 3 % de gains marginaux, et réduisaient parfois l'"exactitude parfaite" en déclenchant des erreurs sur des questions auxquelles le modèle aurait autrement répondu correctement. Le seuil d'échelle de l'article a peut-être évolué à mesure que les modèles se sont améliorés en raisonnement implicite — mais le problème de la variabilité, où la CoT introduit une chance non nulle de faire dérailler une réponse par ailleurs correcte, persiste.

Pourquoi cela est crucial pour l'IA en finance

Trois connexions avec le programme de Bean Labs :

Premièrement, le problème de sécurité de l'écriture en retour (write-back). Un agent utilisant la CoT expliquant son raisonnement avant d'effectuer une action sur le grand livre fournit une piste d'audit — mais la trace de raisonnement n'est pas une garantie d'exactitude. L'agent peut produire une explication plausible pour une action erronée. Cela signifie que présenter une trace de raisonnement aux utilisateurs peut créer une fausse confiance plutôt qu'une véritable auditabilité.

Deuxièmement, l'asymétrie de la détection d'anomalies. Si la CoT augmente la précision mais diminue le rappel sur les tâches de détection d'événements rares, alors pour les cas d'utilisation de Beancount — trouver des transactions mal classées, signaler des entrées en double, détecter des violations de politiques — l'utilisation naïve de la CoT peut produire moins de fausses alertes au prix de manquer des problèmes réels. C'est potentiellement le mauvais compromis. Un agent financier qui explique avec assurance pourquoi il n'a pas signalé quelque chose de suspect est plus dangereux qu'un agent qui signale trop d'éléments.

Troisièmement, la dépendance à l'échelle. Si les agents financiers en production tournent sur des modèles plus petits pour des raisons de coût ou de latence, les gains de la CoT s'évaporent — et peuvent s'inverser. Toute évaluation d'un agent financier basé sur la CoT doit être effectuée à la même échelle de modèle que celle utilisée en production.

Lectures complémentaires

  • "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2022, arXiv:2203.11171) — échantillonne plusieurs chemins CoT et prend le vote majoritaire ; répond directement au problème de variance signalé par Wei et al.
  • "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022, arXiv:2205.11916) — montre que "Réfléchissons étape par étape" sans aucun exemple suscite également le raisonnement ; teste les limites de ce dont la CoT a réellement besoin.
  • "Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?" (arXiv:2508.01191) — attaque directement la question mécaniste que l'article original laisse ouverte.