ConvFinQA : QA financière multi-tours et l'écart de 21 points entre modèles et experts humains
Après avoir passé plusieurs articles sur la QA financière à un seul tour — FinQA, FinanceBench, TAT-QA — je voulais voir ce qui se passe lorsque les utilisateurs posent des questions de suivi. ConvFinQA (Chen et al., EMNLP 2022) est l'article qui reprend le cadre de FinQA et l'étend à la conversation multi-tours, et les résultats révèlent un mode d'échec que les benchmarks à un seul tour ne peuvent tout simplement pas voir : des modèles qui excellent dans le raisonnement numérique isolé s'effondrent souvent dès qu'une question fait référence à quelque chose dit deux tours plus tôt.
L'article
ConvFinQA, par Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah et William Yang Wang (UC Santa Barbara et J.P. Morgan), construit un jeu de données de 3 892 conversations multi-tours totalisant 14 115 questions sur 2 066 pages de rapports financiers. Chaque conversation est ancrée dans les rapports de résultats — les mêmes documents S&P 500 utilisés dans FinQA — et les questions s'enchaînent de sorte que les tours suivants puissent faire référence aux réponses précédentes. Le format de la tâche est hérité de FinQA : les modèles génèrent un programme dans un petit langage spécifique au domaine (add, subtract, multiply, divide, greater, exp) qui est ensuite exécuté pour produire la réponse. L'évaluation utilise la précision d'exécution (si le résultat exécuté correspond à la réponse de référence) et la précision du programme (si le programme généré correspond au programme de référence).
Le jeu de données propose deux types de conversations. Les conversations de type I « simples » décomposent une seule question complexe de FinQA en une séquence de sous-questions. Les conversations de type II « hybrides » concatènent les décompositions de deux questions FinQA différentes sur le même rapport, forçant un raisonnement multi-aspects. Plus de 60 % des questions dépendent des tours précédents, et les questions de la deuxième partie dans les conversations hybrides sont nettement plus difficiles car le modèle doit conserver l'état du raisonnement à travers différents sujets financiers.
Idées clés
- Meilleur modèle affiné (FinQANet avec RoBERTa-large) : 68,90 % de précision d'exécution sur l'ensemble de test. Les experts financiers humains atteignent 89,44 %. Les travailleurs du crowd (MTurk) : 46,90 % — un écart frappant qui confirme que la tâche nécessite de véritables connaissances du domaine.
- GPT-3 (text-davinci-002, 175B) avec 20 exemples (few-shot) et faits de soutien de référence : 50,30 % de précision d'exécution — bien en dessous du spécialiste affiné et à peine au-dessus du crowd.
- L'incitation par chaîne de pensée (Chain-of-thought) nuit à GPT-3 : le CoT donne 40,63 % contre 45,15 % pour l'incitation par programme standard. Le modèle imite le format de raisonnement des exemples donnés au lieu de l'appliquer à la question réelle.
- Les conversations hybrides sont nettement plus difficiles : la deuxième partie d'une conversation hybride obtient un score de 52,38 % pour FinQANet contre 72,37 % pour les conversations simples. Le référencement croisé multi-aspects est l'endroit où les modèles actuels s'effondrent.
- GPT-3 peine particulièrement avec les questions de sélection de nombres — répondre à un suivi comme « qu'en est-il de l'année précédente ? » — n'atteignant que 35,32 % là où FinQANet atteint 82,54 %. La résolution de l'anaphore conversationnelle est le goulot d'étranglement.
Ce qui tient la route — et ce qui ne la tient pas
La construction du jeu de données est soignée et l'évaluation est claire. Utiliser la précision du programme aux côtés de la précision d'exécution est précieux : deux programmes peuvent produire la même réponse numérique par des chemins de raisonnement différents (éventuellement erronés), et la précision du programme permet de détecter cela. La décision d'ancrer les conversations dans de vrais documents S&P 500 maintient la tâche concrète plutôt que synthétique.
Cela dit, la variété des conversations est limitée par conception. Chaque conversation est construite en décomposant des questions FinQA existantes — il n'y a pas de dialogues véritablement ouverts, pas de tours de clarification, pas de corrections de l'utilisateur. Les conversations comptables réelles incluent tout cela. Le jeu de données est une approximation contrôl ée du raisonnement conversationnel, pas un échantillon naturaliste.
L'analyse de GPT-3 a mal vieilli. Au moment de la publication (fin 2022), voir GPT-3 plafonner en dessous de 50 % semblait être un résultat négatif significatif. Mais l'article précède GPT-4, et des travaux ultérieurs montrent que des modèles plus performants comblent une grande partie de l'écart. Le constat sur le CoT — le fait que l'incitation ait eu l'effet inverse — est intéressant mais peut être spécifique au modèle : le CoT a tendance à mieux fonctionner dans les modèles ayant une meilleure capacité à suivre les instructions.
L'évaluation se concentre également entièrement sur la justesse de la réponse finale et ignore la qualité de la chaîne de raisonnement intermédiaire. Cela compte car un modèle peut générer une réponse numériquement correcte via un programme erroné (ce que la précision du programme capture partiellement) ou un programme correct via un raisonnement fragile qui échouerait sous une légère paraphrase. FinChain (2025) critique explicitement cela, motivant une alternative axée sur la transparence. Pour les systèmes de production, savoir pourquoi le modèle a obtenu la bonne réponse est aussi important que de savoir qu'il l'a obtenue.
Pourquoi cela compte pour l'IA en finance
Un agent Beancount traitant les requêtes des utilisateurs reçoit rarement une seule question autonome. Les utilisateurs demandent « qu'ai-je dépensé en courses le mois dernier ? », puis « comment cela se compare-t-il au mois précédent ? » et enfin « est-ce plus que ce que j'avais budgétisé ? ». Chaque question s'appuie sur la précédente. ConvFinQA est le benchmark publié le plus proche de ce modèle d'interaction, et ses chiffres sont sombres : même avec une récupération de référence, le meilleur modèle disponible en 2022 laissait un écart d'environ 21 points de pourcentage par rapport à la performance d'un expert humain, et l'écart se creuse sur les questions multi-aspects.
L'échec spécifique sur les conversations hybrides mérite d'être souligné. Lorsqu'un utilisateur passe d'une question sur les revenus à une question sur les dépenses au cours de la même session, le modèle doit conserver le contexte numérique tout en réinitialisant le focus thématique. C'est exactement ce qu'un agent Beancount doit faire lors d'une session de révision de grand livre multi-tours. Le score de 52,38 % sur ces tours est une limite inférieure directe de la façon dont les approches actuelles gèrent ce scénario.
Le constat sur le CoT est également utile en pratique : il suggère que lors de l'incitation d'un modèle à raisonner sur des données financières dans un cadre multi-tours, la génération de programmes structurés peut être plus fiable qu'une chaîne de pensée libre, du moins pour les modèles du niveau de capacité de GPT-3. Les modèles plus performants pourraient ne pas présenter cette inversion — mais c'est une hypothèse à tester, pas une supposition à faire.
Que lire ensuite
- Suivi ConvFinQA APOLLO (arXiv:2212.07249) — atteint l'état de l'art sur ConvFinQA en utilisant l'échantillonnage négatif conscient des nombres et l'apprentissage par renforcement basé sur la cohérence ; vaut le détour pour voir ce qui a comblé l'écart après l'article original.
- Program of Thoughts Prompting (arXiv:2211.12737, 2022) — délègue l'arithmétique à un interpréteur Python plutôt qu'à un DSL ; a rapporté une amélioration d'environ 12 % par rapport au CoT sur les tâches de QA financière et une performance proche de l'état de l'art sur ConvFinQA ; relie les idées de CodeAct directement au raisonnement financier.
- FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — effectue une récupération à la demande pendant la génération plutôt qu'une seule fois au début ; directement pertinent pour le cadre multi-tours où les besoins de recherche du modèle changent tour après tour.
