Aller au contenu principal

FinQA : Le benchmark mesurant le raisonnement numérique de l'IA sur les rapports financiers

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

FinanceBench a montré la semaine dernière que la recherche d'information n'est pas la partie difficile du QA (questions-réponses) financier — c'est le raisonnement numérique. FinQA, publié à l'EMNLP 2021, est l'article qui a établi pourquoi. Je le lis maintenant car il s'agit du benchmark fondamental pour l'arithmétique financière ; chaque travail ultérieur dans ce domaine soit le prolonge, soit se compare à lui, et comprendre où ses modèles échouent explique où les agents Beancount actuels échoueront également.

L'article

2026-05-13-finqa-numerical-reasoning-financial-data

Zhiyu Chen, Wenhu Chen et leurs collègues de l'UC Santa Barbara, J.P. Morgan et Amazon ont introduit FinQA: A Dataset of Numerical Reasoning over Financial Data (arXiv:2109.00122, EMNLP 2021). La tâche centrale : étant donné un rapport de résultats contenant à la fois un récit en prose et un ou plusieurs tableaux financiers, répondre à une question qui nécessite une arithmétique multi-étapes sur des faits tirés des deux modalités. La réponse doit être dérivée via un programme numérique explicite — une séquence allant jusqu'à cinq opérations (addition, soustraction, multiplication, division, comparaison, agrégation de tableaux et quelques autres) appliquées aux valeurs extraites.

Onze professionnels de la finance basés aux États-Unis (experts-comptables, MBA) ont construit le jeu de données à la main à partir de 2 789 pages de rapports de résultats du S&P 500 couvrant la période 1999–2019. Le jeu de données final contient 8 281 paires de QA annotées, chacune avec des faits justificatifs de référence et le programme de raisonnement complet, ce qui le rend entièrement exécutable et auditable.

Idées clés

  • L'écart est brutal au moment de la sortie. FinQANet (RoBERTa-large), le meilleur modèle neuronal que les auteurs ont pu aligner, a atteint une précision d'exécution de 61,24 % et une précision de programme de 58,86 % sur l'ensemble de test. Les experts financiers humains ont obtenu 91,16 % et 87,49 %. Les travailleurs non experts n'ont atteint que 50,68 % — à peine au-dessus de la base neuronale, ce qui indique que le domaine requiert une réelle expertise et pas seulement de la compréhension de lecture.
  • Le multi-étapes est le point de rupture. Pour les programmes nécessitant trois étapes de raisonnement ou plus, la précision de FinQANet s'effondre à 22,78 %. Le modèle peut gérer raisonnablement l'arithmétique en deux étapes ; au-delà, l'erreur se propage.
  • Les questions multi-modales sont le cas difficile. Les questions dont les preuves s'étendent à la fois sur le tableau et la prose affichent une précision de 43,80 %, soit environ 17 points de moins que la moyenne globale. L'ancrage d'un nombre provenant d'un paragraphe de tableau à un qualificatif dans le texte n'est pas une chose que les modèles pré-entraînés standard font bien.
  • Les constantes de domaine sont un tueur silencieux. Lorsqu'une étape du programme nécessite une constante relevant d'une convention financière (par exemple, il y a 1 000 milliers dans un million, ou un point de base est égal à 0,01 %) plutôt que quelque chose d'énoncé dans le document, la précision tombe à 43,88 %. Le modèle ne peut pas distinguer de manière fiable « ce chiffre est dans le document » de « ce chiffre relève de la connaissance du monde ».
  • Environ 50 % des erreurs proviennent de lacunes dans les connaissances du domaine, et non de défaillances de recherche ou d'erreurs d'exécution arithmétique. Le modèle a trouvé les bons faits mais a appliqué une logique financière erronée.
  • Les LLM ultérieurs réduisent considérablement l'écart mais ne l'éliminent pas. GPT-4 est crédité d'environ 76 % de précision d'exécution sur FinQA, et les systèmes SOTA spécifiques à la tâche ont atteint environ 89 % en 2024 — toujours en dessous de la performance des experts humains.

Ce qui tient la route — et ce qui ne la tient pas

La conception du benchmark est solide. L'utilisation de programmes exécutables au lieu de réponses en texte libre est le bon choix : vous pouvez évaluer un modèle sans ambiguïté et vous obtenez une fenêtre sur comment il a raisonné, pas seulement s'il a eu raison. La décision d'exiger des preuves provenant à la fois du tableau et du texte reflète l'analyse financière du monde réel, où le tableau donne le chiffre et la note de bas de page explique ce qu'il signifie.

Cela dit, la tâche est plus étroite qu'il n'y paraît. Le DSL (langage dédié) prédéfini des opérations couvre l'arithmétique financière standard, mais il ne peut pas représenter une décision de catégorisation (« cette dépense est-elle récurrente ou ponctuelle ? »), une vérification de politique (« ce flux de trésorerie est-il conforme à notre politique budgétaire ? »), ou quoi que ce soit nécessitant une recherche externe de données de marché ou de normes comptables. Les programmes sont corrects et explicables, mais ils évoluent dans un monde où la seule incertitude est l'arithmétique, pas le jugement.

La configuration de la recherche d'information fournit également au modèle les faits justificatifs de référence pendant l'entraînement, ce qui flatte les chiffres. Dans un déploiement réel, vous devriez extraire les bonnes cellules de tableau d'un long document avant de pouvoir exécuter le programme — et cette étape de recherche n'est pas triviale, comme l'a montré FinanceBench la semaine dernière.

Enfin, les résultats de 2021 sous-estiment la capacité actuelle des modèles. La base de référence d'environ 61 % datait d'avant ChatGPT. Le chiffre d'environ 76 % pour GPT-4 et d'environ 89 % pour les SOTA provient de pipelines spécialisés combinant chaîne de pensée (chain-of-thought), exécution de code et réglage fin (fine-tuning). L'écart avec l'expert humain (91 %+) s'est réduit mais persiste.

Pourquoi cela compte pour l'IA financière

Les registres Beancount sont essentiellement des rapports de résultats simplifiés : des lignes structurées de débits et de crédits avec des métadonnées en prose dans les notes de transaction, les champs de bénéficiaire et les hiérarchies de comptes. Chaque compétence testée par le benchmark FinQA correspond directement à une action qu'un agent Beancount doit effectuer.

Le mode d'échec multi-modal est particulièrement important. Dans un contexte Beancount, un agent pourrait voir un montant de transaction dans le grand livre, un taux de change dans une directive de prix et un commentaire dans le champ de note — et avoir besoin des trois pour calculer la valeur correcte dans la devise de reporting. Les modèles testés par FinQA en 2021 ne pouvaient pas croiser ces sources de manière fiable. Les LLM actuels font mieux, mais la précision de 22,78 % sur les programmes de 3 étapes et plus est un avertissement : la longueur de la chaîne est un véritable axe de défaillance, et les tâches de rapprochement de grand livre multi-étapes s'y heurteront.

Le problème des constantes de domaine se généralise également. La comptabilité possède ses propres conventions — invariants de la partie double, sémantique des types de comptes, clôtures d'exercices fiscaux — qu'un modèle doit connaître sans qu'on les lui dise. L'analyse des erreurs de FinQA montrant environ 50 % d'échecs dus aux connaissances du domaine suggère qu'un agent Beancount nécessite soit un réglage fin sur les conventions comptables, soit une couche de recherche explicite pour les règles comptables, et pas seulement pour les entrées du grand livre.

La représentation par programme du benchmark, bien que contrainte, indique également comment les agents Beancount devraient exprimer leur raisonnement : non pas un langage naturel qui pourrait être vague, mais des opérations exécutables qui peuvent être vérifiées, annulées ou auditées.

Que lire ensuite

  • TAT-QA (arXiv:2105.07624, ACL 2021) — étend le cadre hybride tableau+texte à 16 552 questions avec une plus grande variété de types de raisonnement ; le modèle TAGOP qu'il introduit mérite d'être étudié pour la façon dont il gère l'extraction de segments à partir des deux modalités conjointement.
  • ConvFinQA (arXiv:2210.03849, EMNLP 2022) — l'extension conversationnelle de FinQA, où chaque dialogue présente des dépendances numériques entre les tours ; la structure multi-tours correspond directement à un assistant Beancount interactif qui doit suivre des calculs courants au fil des questions de l'utilisateur.
  • MultiHiertt (arXiv:2206.01347, ACL 2022) — pousse le cadre vers des rapports financiers comportant plusieurs tableaux hiérarchiques par document ; une étape nécessaire vers les états de consolidation et les vues de grand livre pluriannuelles auxquels les agents Beancount seront confrontés.