MultiHiertt : Évaluation du raisonnement numérique sur des tableaux financiers multi-hiérarchiques

16 mai 2026 · 7 minutes de lecture

Mike Thrift

Marketing Manager

Chaque benchmark de question-réponse (QA) financier que j'ai lu ce mois-ci — FinQA, TAT-QA, ConvFinQA — repose sur la même hypothèse silencieuse : un seul tableau plat par document. Les rapports financiers réels ne ressemblent en rien à cela. Les bilans consolidés imbriquent des filiales à l'intérieur de segments, eux-mêmes à l'intérieur d'entités mères ; les comptes de résultat comportent des postes hiérarchiques avec des sous-totaux qui alimentent eux-mêmes des agrégats plus élevés. MultiHiertt (Zhao et al., ACL 2022) est le premier dataset d'évaluation conçu pour exposer précisément cet écart, et les chiffres qui en ressortent sont frappants.

L'article

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

Yilun Zhao, Yunxiang Li, Chenying Li et Rui Zhang de Penn State introduisent MultiHiertt, un benchmark de QA comprenant 10 440 paires de questions-réponses extraites de 2 513 rapports financiers réels. Chaque document contient en moyenne 3,89 tableaux hiérarchiques accompagnés de 68 phrases (~1 645 mots) de texte narratif. La répartition train/dev/test est de 7 830 / 1 044 / 1 566. L'argument central est simple mais percutant : les jeux de données antérieurs (FinQA, TAT-QA) évaluent les modèles sur des documents avec un seul tableau plat, ce qui sous-estime systématiquement la complexité du raisonnement sur les rapports financiers réels où une question peut nécessiter la synthèse de chiffres provenant de trois sous-tableaux distincts avant d'appliquer un programme arithmétique.

Parallèlement au dataset, les auteurs proposent MT2Net, un modèle en deux étapes : un module de récupération des faits qui évalue les cellules de support candidates et les segments de texte de tous les tableaux et paragraphes, suivi d'un module de raisonnement symbolique (un exécuteur de programme arithmétique emprunté à la conception NeRd de FinQA) qui opère sur les faits récupérés. MT2Net utilise RoBERTa-large comme encodeur tout au long du processus.

Idées clés

La moyenne de 3,89 tableaux par document de MultiHiertt reflète directement la structure réelle des rapports annuels, où une seule question peut nécessiter des valeurs provenant du compte de résultat, d'un tableau de répartition par segment et d'une annexe — dont aucun n'est plat.
MT2Net (RoBERTa-large) atteint un score F1 de 38,43 % sur l'ensemble de test ; les experts humains obtiennent 87,03 % — un écart de près de 49 points.
Les questions de raisonnement multi-tableaux (nécessitant des preuves provenant d'au moins 2 tableaux) obtiennent un score F1 de 21,04 % avec le meilleur modèle, contre 36,77 % pour les questions à tableau unique — une chute de plus de 15 points par rapport à une base déjà basse.
Le module de raisonnement symbolique aide mais ne peut compenser les échecs de récupération : l'étude d'annotation montre que 31,5 % des erreurs sur les exemples hiérarchiques proviennent de la sélection de mauvaises cellules de preuve avant même toute tentative d'arithmétique.
En 2024, GPT-4 avec le prompting "Program-of-Thoughts" atteint 67,23 % de score F1 sur MultiHiertt, et une méthode dédiée EEDP (evidence-enhanced document prompting) pousse GPT-4 à 70,32 % — toujours 17 points en dessous du plafond humain.
La qualité de l'annotation est solide : Kappa inter-annotateurs de 0,72 à 0,90, avec 76,8 % à 94,0 % des échantillons notés ≥ 4/5 pour l'exactitude par les travailleurs de plateforme.

Ce qui tient la route — et ce qui ne la tient pas

La construction du dataset est soignée et les métriques de qualité d'annotation sont rassurantes. L'affirmation centrale — selon laquelle les benchmarks à tableau unique sous-estiment la complexité réelle — est manifestement vraie, et l'écart de 15 points de score F1 entre les sous-ensembles mono et multi-tableaux la rend concrète. Le tableau comparatif (Tableau 1 de l'article) montre clairement que FinQA et TAT-QA n'ont qu'un seul tableau par document ; MultiHiertt comble véritablement une lacune réelle.

Cela dit, MT2Net n'est pas une solution proposée robuste — c'est plus proche d'une base de référence (baseline) solide. Le module de récupération est un scoreur au niveau du segment (span) entraîné avec supervision sur les faits de support, ce qui signifie qu'il dépend fortement de la présence d'un signal de supervision correct au moment de l'entraînement. L'article n'évalue pas ce qui se passe lorsque la structure hiérarchique est implicite (pas d'imbrication HTML parent-enfant explicite), ce qui est courant dans les rapports scannés et les anciens PDF. L'ensemble de test est conservé derrière un classement CodaLab, ce qui rend difficile la reproduction indépendante des résultats ou l'analyse des modes de défaillance.

Je tiens également à signaler un point que les auteurs sous-estiment : les résultats de GPT-4 en 2024 montrent que la puissance de raisonnement brute peut combler une grande partie de l'écart sans aucune architecture spécifiquement conçue pour la hiérarchie. GPT-4 atteint 70 % sans qu'on lui dise jamais que le document contient des tableaux hiérarchiques — il lit simplement le rendu HTML. C'est en fait une découverte intéressante : la conscience de la hiérarchie pourrait importer moins que la capacité de contexte pure et la fiabilité arithmétique. La contrainte limitante pourrait toujours être la précision de la récupération sur de longs documents, et non l'architecture de raisonnement.

Pourquoi cela compte pour l'IA financière

Les agents Beancount sont confrontés exactement à ce problème. Une question telle que "quel était notre taux d'imposition effectif en 2023 ?" nécessite de trouver la ligne du résultat avant impôt dans le compte de résultat, la charge d'impôt sur le résultat dans une note séparée, et éventuellement une ventilation par segment pour rapprocher le chiffre consolidé. Aucun de ces éléments ne réside dans un seul tableau plat. La pénalité de 15 points de score F1 pour le raisonnement multi-tableaux dans MultiHiertt quantifie ce que je m'attendrais à voir dans un contexte Beancount : des agents qui semblent performants sur des requêtes à compte unique se dégraderont considérablement lorsqu'une question nécessitera une jointure entre plusieurs sections du grand livre.

L'analyse des erreurs est directement exploitable. Si 31,5 % des erreurs sont des récupérations de preuves erronées avant tout calcul, alors la priorité pour un agent d'écriture Beancount n'est pas un meilleur moteur arithmétique — c'est un meilleur sélecteur de preuves. Un agent qui récupère les mauvaises lignes du grand livre avant de faire le calcul produira des écritures d'apparence plausible mais erronées, précisément le mode de défaillance le plus difficile à détecter lors d'un audit.

La trajectoire de GPT-4 est également encourageante pour le court terme : passer de 38 % à 70 % en deux ans suggère que le raisonnement financier multi-tableaux est traitable à mesure que les fenêtres de contexte et le raisonnement s'améliorent, même sans entraînement spécifique au domaine. Mais l'écart restant de 17 points par rapport aux performances humaines n'est pas un bruit de fond — il reflète probablement des cas où la structure hiérarchique porte une charge sémantique que le rendu textuel plat perd.

Ce qu'il faut lire ensuite

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — le fondement sur lequel presque tous les systèmes de QA financier sont bâtis ; comprendre sa séparation entre mémoire paramétrique et non paramétrique est crucial pour décider comment structurer la récupération du grand livre.
FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — récupère des données en cours de génération lorsque le modèle prédit qu'il a besoin de nouveaux faits, ce qui est parfaitement adapté au raisonnement multi-tableaux où l'on découvre en cours de route qu'on a besoin d'un tableau subsidiaire.
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — affine un LLM spécifiquement sur FinQA/TAT-QA/MultiHiertt et montre ce que l'adaptation au domaine apporte réellement par rapport au prompting de GPT-4.

Share on Twitter Follow @beancount_io

MultiHiertt : Évaluation du raisonnement numérique sur des tableaux financiers multi-hiérarchiques

L'article

Idées clés

Ce qui tient la route — et ce qui ne la tient pas

Pourquoi cela compte pour l'IA financière

Ce qu'il faut lire ensuite

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales

L'article​

Idées clés​

Ce qui tient la route — et ce qui ne la tient pas​

Pourquoi cela compte pour l'IA financière​

Ce qu'il faut lire ensuite​

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales

L'article

Idées clés

Ce qui tient la route — et ce qui ne la tient pas

Pourquoi cela compte pour l'IA financière

Ce qu'il faut lire ensuite