Aller au contenu principal

TAT-LLM : LLaMA 2 affiné pour le raisonnement discret sur les tableaux et textes financiers

· 7 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

Après une semaine sur la récupération et l'injection de connaissances, je voulais explorer l'autre versant de la question : qu'apporte réellement un affinage (fine-tuning) ciblé lorsque la tâche est bien définie ? TAT-LLM (arXiv:2401.13223, ICAIF 2024) apporte l'une des réponses les plus nettes : affiner LLaMA 2 avec un pipeline structuré sur des benchmarks de QA (questions-réponses) table-texte financiers pour battre GPT-4. Le piège, comme d'habitude, réside dans les détails.

L'article

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li et Tat-Seng Chua de NExT++ à la NUS présentent TAT-LLM, un modèle LLaMA 2 affiné pour le raisonnement discret sur des données hybrides tabulaires et textuelles. Le problème central est de répondre à des questions numériques sur des rapports financiers — le genre de question qui nécessite de localiser une ligne spécifique dans un tableau, d'extraire deux chiffres et d'effectuer une opération arithmétique en plusieurs étapes pour parvenir à une réponse. C'est exactement ce que font les humains en lisant des rapports 10-K.

Plutôt que de solliciter un grand modèle de bout en bout, les auteurs décomposent la tâche en trois étapes explicites : un Extracteur (Extractor) qui identifie les preuves numériques pertinentes dans le document, un Raisonneur (Reasoner) qui écrit une expression arithmétique, et un Exécuteur (Executor) qui exécute l'expression de manière déterministe. Les données d'entraînement sont générées automatiquement à partir de jeux de données existants annotés par des experts — FinQA, TAT-QA et TAT-DQA — en annotant chaque instance avec les étapes intermédiaires d'extraction et de raisonnement. L'affinage utilise LoRA sur trois échelles de LLaMA 2 : 7B, 13B et 70B.

Idées clés

  • La décomposition en pipeline l'emporte sur le bout en bout : L'exécuteur externe (arithmétique déterministe) ajoute +16,66 points d'EM pour le seul modèle 7B. L'arithmétique n'est pas plus difficile à réaliser pour le modèle — elle est simplement catastrophiquement peu fiable lorsqu'elle est effectuée en langage naturel.
  • Le 7B bat GPT-4 sur les trois benchmarks : TAT-LLM 7B obtient 64,60 % d'EM sur FinQA (contre 63,91 % pour GPT-4), 74,56 % d'EM sur TAT-QA (contre 71,92 %) et 69,45 % d'EM sur TAT-DQA (contre 64,46 %). L'écart sur TAT-DQA est le plus convaincant avec près de 5 points.
  • L'extraction est le mode de défaillance limitant : L'analyse des erreurs montre que 48 % des erreurs proviennent d'une mauvaise extraction des preuves — le modèle identifie la mauvaise ligne, la mauvaise colonne ou lit mal un nombre en raison d'une terminologie financière peu familière. Seuls 19 % concernent des opérateurs erronés.
  • L'échelle aide modestement : La variante 70B entraînée conjointement (TAT-LLM-All) pousse FinQA à 76,81 % d'EM et TAT-QA à 81,42 % de F1, ce qui représente des gains significatifs. Mais le modèle 7B dépasse déjà GPT-4, ce qui suggère que la structure du pipeline importe plus que le nombre de paramètres.
  • Les experts humains restent loin devant : Sur TAT-QA, la performance humaine est de 90,8 % de F1 ; le meilleur résultat de TAT-LLM est de 81,42 % de F1. L'écart est réel et l'article le reconnaît.

Ce qui tient la route — et ce qui ne tient pas

La contribution technique de base est solide : déléguer l'arithmétique à un exécuteur déterministe est évidemment la bonne décision, et l'ablation le prouve de manière décisive. C'est une leçon bien connue de PAL et de travaux similaires, mais la voir quantifiée ici (+16,66 points) sur un benchmark spécifique à la finance est une confirmation précieuse.

Ce qui me rend plus sceptique, c'est l'affirmation principale de « surpasser GPT-4 ». La marge sur FinQA est de 0,69 point d'EM — essentiellement dans le bruit statistique, et les chiffres de GPT-4 reflètent une évaluation en zero-shot ou avec un prompt léger, et non GPT-4 avec une chaîne de pensée (chain-of-thought), des exemples few-shot ou son propre interpréteur de code. Un GPT-4 avec l'utilisation d'outils Python dépasserait presque certainement ces chiffres. La comparaison n'est pas fausse, mais ce n'est pas tout à fait l'histoire de « la spécialisation l'emporte » que suggère le résumé.

Il y a également une préoccupation importante concernant une fuite lors de l'évaluation (evaluation leak). Le modèle est affiné sur les segments d'entraînement de FinQA, TAT-QA et TAT-DQA et évalué sur leurs segments de test. C'est un cadre restreint de distribution interne (in-distribution). L'article n'inclut pas de tâche de QA financière distincte que le modèle n'aurait jamais vue pendant l'entraînement, de sorte que la généralisation à de nouveaux types de documents ou à de nouveaux schémas arithmétiques n'est pas prouvée.

Le plafond de contexte de 4 096 jetons est un obstacle pratique majeur pour les rapports financiers réels. Un rapport 10-K type s'étend sur plus de 100 pages ; même un simple communiqué de résultats trimestriels dépasse souvent les 4 096 jetons. Le modèle tel que décrit ne peut pas gérer les entrées pour lesquelles il a été conçu sans découpage (chunking), et l'article n'aborde pas la dégradation de l'extraction lorsque les preuves s'étendent sur plusieurs segments.

Pourquoi cela est important pour l'IA en finance

La décomposition Extracteur-Raisonneur-Exécuteur est directement applicable aux agents Beancount. Lorsqu'un utilisateur demande « quelles ont été mes dépenses alimentaires totales au premier trimestre 2025 par rapport au premier trimestre 2024 ? », la structure naturelle est la suivante : localiser les transactions pertinentes (Extraire), construire une expression d'agrégation (Raisonner), l'exécuter contre le grand livre (Exécuter). L'analyse des erreurs de TAT-LLM fait une prédiction concrète : l'étape d'extraction sera celle où un agent Beancount échouera le plus souvent — mauvaises catégories de comptes, transactions oubliées, montants mal lus — et non l'arithmétique.

L'approche d'affinage par LoRA est également pertinente pour quiconque construit un modèle spécifique à Beancount. La stratégie de génération de données d'entraînement — prendre des paires de QA annotées par des experts et les annoter avec des étapes intermédiaires — est exactement la manière dont on construirait un jeu de données de raisonnement spécifique au grand livre. Vous disposez des écritures comptables réelles ; vous pouvez générer automatiquement des tuples (question, extraction, expression, réponse).

La limite de contexte est le plus gros point de blocage. Un agent Beancount en production doit raisonner sur des années d'écritures. Le modèle de l'article n'est pas cela ; c'est une base solide sur la QA de documents courts qui doit être étendue avec du découpage, de la récupération ou une fenêtre de contexte plus longue pour devenir pratique.

Que lire ensuite

  • FinQA (arXiv:2109.00122, EMNLP 2021) — le benchmark original sur lequel TAT-LLM est évalué ; sa lecture clarifie exactement ce que signifie le « raisonnement discret sur les données financières » et à quoi ressemblait l'état de l'art (SOTA) avant les LLM.
  • TAGOP (faisant partie de l'article TAT-QA, arXiv:2105.07624, ACL 2021) — le modèle d'opérateur tenant compte des tableaux qui a défini la tâche TAT-QA ; comprendre à quoi ressemble la sélection d'opérateurs basée sur des règles donne un point de référence sur ce que remplace l'étape du Raisonneur basée sur les LLM.
  • AuditCopilot (arXiv:2512.02726) — évalue LLaMA et Gemma sur la détection d'anomalies de tests d'écritures comptables (Journal Entry Test) sur des données réelles de grand livre ; la question qui suit naturellement TAT-LLM est de savoir si la même approche d'affinage est transférable à la détection d'anomalies plutôt qu'à la QA.