Aller au contenu principal

TAT-QA : Un benchmark de QA hybride tableau-texte pour le raisonnement sur les rapports annuels financiers

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

Je lis TAT-QA aujourd'hui car il se situe à une intersection cruciale pour ce que nous construisons : des questions qui ne peuvent être résolues qu'en raisonnant simultanément sur un tableau et le texte environnant. Dans Beancount, chaque écriture comptable existe dans un contexte — une ligne de tableau qui n'a de sens qu'avec le libellé, la narration de la contrepartie ou la politique comptable qui explique pourquoi ce poste est présent. TAT-QA, publié à l'ACL 2021 par Zhu et al. du laboratoire NExT++ de la NUS, est le benchmark qui a forcé la communauté NLP à affronter ce problème de front.

L'article

2026-05-14-tat-qa-hybrid-tabular-textual-financial-question-answering

Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng et Tat-Seng Chua présentent TAT-QA (Tabular And Textual QA), un ensemble de données de 16 552 questions sur 2 757 contextes hybrides tirés de rapports annuels financiers réels. Chaque contexte associe un tableau semi-structuré à au moins deux paragraphes d'accompagnement — exactement la structure que l'on trouve dans les dépôts 10-K, où un tableau de revenus côtoie la discussion de la direction sur les facteurs ayant influencé les chiffres. Presque toutes les questions nécessitent de l'arithmétique : addition, soustraction, multiplication, division, comptage, comparaison, tri et compositions multi-opérations.

La contribution principale est double : le benchmark lui-même, et TAGOP, un nouveau modèle qui traite la tâche comme un étiquetage de preuves suivi d'un raisonnement symbolique. TAGOP utilise un étiqueteur de séquence sur les cellules de tableau et les segments de texte concaténés pour identifier les éléments de preuve à collecter, puis applique un ensemble fixe d'opérateurs d'agrégation (somme, différence, produit, ratio, compte, etc.) pour calculer la réponse finale. Pas d'arithmétique neuronale — le calcul lui-même est toujours délégué à un exécuteur symbolique.

Idées clés

  • L'identification des preuves est la partie difficile, pas l'arithmétique. L'analyse d'erreurs de TAGOP attribue environ 55 % des échecs à un étiquetage incorrect et 29 % à des preuves manquantes. Une fois que vous avez les bonnes cellules et les bons segments, l'exécuteur symbolique fait rarement une erreur de calcul. C'est un signal direct : pour les agents financiers, l'étape d'extraction et d'ancrage domine.
  • Les modèles textuels seuls échouent immédiatement. BERT-RC n'atteint que 18,7 % de F1 sur l'ensemble de test. NumNet+ V2, le meilleur lecteur numérique pré-TAT-QA, atteint 46,9 % de F1. Le modèle de référence TaPas, axé uniquement sur les tableaux, obtient 22,8 % de F1. Un modèle qui lit des tableaux sans texte — ou du texte sans tableaux — est disqualifié dans ce domaine.
  • TAGOP obtient 58,0 % de F1 (50,1 % de correspondance exacte), les experts humains obtiennent 90,8 % de F1 (84,1 % de CE). L'écart de 32,8 points de F1 au moment de la publication était alarmant. Cela signifiait que même le meilleur système de 2021 répondait à moins de deux tiers des questions qu'un analyste formé peut traiter.
  • Fin 2024, le classement raconte une autre histoire. Le meilleur système, TAT-LLM (70B), atteint 88,4 % de F1 — seulement 2,4 points en dessous de l'humain. TAT-LLM (7B) atteint 82,88 % de F1, et GPT-4 en zero-shot atteint 79,71 % de F1. L'écart s'est réduit de manière spectaculaire, principalement grâce à l'affinage (fine-tuning) des LLM à grande échelle.
  • L'affinage spécialisé bat toujours GPT-4 brut. TAT-LLM 7B (74,56 % de CE) surpasse GPT-4 zero-shot (71,92 % de CE) sur TAT-QA, même avec une fraction du nombre de paramètres. Le pipeline par étapes Extracteur→Raisonneur→Exécuteur utilisé par TAT-LLM reflète l'intuition de TAGOP mais remplace l'étiqueteur symbolique par un LLM guidé par des prompts.

Ce qui tient la route — et ce qui ne la tient pas

Le benchmark repose sur des données réelles, des questions réelles et des rapports financiers réels. Cette crédibilité est son plus grand atout. L'écart de 32 points entre l'humain et le modèle à la publication était authentique, et le jeu de données est suffisamment difficile pour que, cinq ans plus tard, les meilleurs systèmes ne l'aient pas encore totalement comblé.

Ce qui m'inquiète, c'est l'hypothèse d'un tableau unique. Chaque contexte TAT-QA contient exactement un tableau. Les rapports annuels réels en contiennent des dizaines, souvent avec des relations hiérarchiques entre segments, filiales et périodes. Un modèle capable de répondre parfaitement aux questions de TAT-QA n'est toujours pas préparé à la consolidation multi-tableaux qui domine le travail comptable réel. L'article MMQA (ICLR 2025) souligne précisément ce point — les benchmarks à tableau unique comme TAT-QA sous-estiment la complexité multi-tableaux à laquelle les praticiens sont confrontés.

La distribution des types de réponses n'est pas non plus aussi ardue qu'elle n'y paraît en pratique. Environ 42 % des réponses de TAT-QA sont des segments uniques — des extractions directes ne nécessitant aucun calcul. Les compositions multi-opérations complexes sont minoritaires. Un modèle qui réussirait toutes les extractions et échouerait toute l'arithmétique obtiendrait tout de même un score situé entre 30 et 40 %. Le benchmark ne pondère pas par difficulté, ce qui aplatit le signal provenant des cas de raisonnement réellement difficiles.

Enfin, la référence humaine (90,8 % de F1) a été calculée à l'aide d'annotateurs qui avaient accès au document mais n'étaient pas nécessairement des experts de niveau expert-comptable (CPA). Pour le raisonnement sur des registres à l'échelle de Beancount — où un agent doit comprendre la politique comptable, et pas seulement l'arithmétique — 90,8 % est peut-être une surestimation du plafond « correct ».

Pourquoi cela compte pour l'IA financière

TAT-QA est le benchmark public le plus proche de ce qu'un agent Beancount affronte quotidiennement : des données d'écriture structurées (tableau) à côté d'un récit non structuré (libellé, description, note de politique). Le résultat de TAGOP confirme ce que j'attendais de la construction d'outils de comptabilité — l'ancrage est plus difficile que le calcul. Le problème est d'étiqueter les bonnes cellules ; les additionner est trivial.

La trajectoire du classement est encourageante pour le produit : un modèle de 7 milliards de paramètres affiné sur ce domaine surpasse GPT-4 zero-shot, ce qui suggère qu'un modèle affiné spécifiquement pour Beancount pourrait gérer la charge de travail extraction+arithmétique sans avoir besoin d'appels API à des modèles frontières pour chaque requête de registre. La latence, le coût et la confidentialité des données s'améliorent tous si nous pouvons exécuter localement un spécialiste compact.

La limitation au tableau unique est l'écart direct à combler pour Bean Labs. Les registres Beancount sont en fait des documents multi-tableaux — imputations de compte, lignes budgétaires, notes de rapprochement — et le benchmark qui capture cette structure multi-sauts à travers des tableaux liés n'existe pas encore totalement. MultiHiertt (ACL 2022) est ce qui s'en rapproche le plus ; c'est le prochain article sur ma liste.

Que lire ensuite

  • MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — aborde directement la limitation du tableau unique de TAT-QA ; les questions nécessitent un raisonnement sur plusieurs tableaux hiérarchiques au sein du même document financier, plus proche de l'apparence des états financiers consolidés.
  • ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — étend FinQA au dialogue multi-tours ; les modèles doivent suivre le contexte numérique courant au fil des tours de questions, ce qui correspond à la manière dont un agent Beancount gère les questions de suivi sur une session de comptabilité.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — la suite directe du même groupe NExT++ ; montre comment LLaMA-2 affiné avec un pipeline Extracteur→Raisonneur→Exécuteur bat GPT-4 zero-shot sur TAT-QA et FinQA.