DocFinQA : Raisonnement financier à contexte long sur l'intégralité des dépôts SEC
DocFinQA est un article de l'ACL 2024 qui reprend le jeu de données FinQA existant et présente à nouveau chaque question aux côtés du dépôt SEC complet dont elle provient — faisant passer le contexte moyen de moins de 700 mots à 123 000 mots. Je le lis parce qu'il teste directement le scénario auquel tout agent Beancount en production est confronté : non pas un passage extrait proprement, mais l'intégralité du document désordonné. Les résultats sont décevants pour quiconque prévoit de déployer des modèles à contexte long sur des registres s'étendant sur plusieurs années.
L'article
DocFinQA : un jeu de données de raisonnement financier à contexte long — Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering et Chris Tanner (ACL 2024, Short Papers) — reprend les 8 281 paires de questions-réponses de FinQA et en augmente 7 621 avec le rapport annuel complet de la SEC dont chaque question provenait initialement. Le résultat est 1 236 dépôts uniques répartis sur 5 798 exemples d'entraînement, 791 de développement et 1 032 de test, avec un contexte moyen multiplié par 175, passant d'environ 700 mots à 123 453 mots.
L'ensemble de questions est inchangé — il s'agit des mêmes questions de raisonnement numérique en plusieurs étapes nécessitant des programmes Python pour y répondre. Ce qui change, c'est que le modèle reçoit désormais le dépôt complet plutôt qu'un passage de 700 mots soigneusement sélectionné par des experts. La recherche compare deux familles d'approches : les pipelines de récupération classiques (segmentation, classement, réponse) et les nouveaux LLM à contexte long qui tentent de traiter l'intégralité du document de bout en bout.
Idées clés
- Précision du meilleur pipeline de récupération sur l'ensemble de test : GPT-3.5 à 42,64 %. Les modèles open-source sont loin derrière : Mistral/7B à 24,97 %, CodeLlama/13B à 21,01 %, MPT/30B à 18,07 %.
- Le meilleur encodeur de récupération — un ColBERT affiné — atteint HR@1 = 0,35 et HR@3 = 0,55, ce qui signifie que le bon segment est absent du contexte du modèle près de la moitié du temps, même lors de la récupération de trois passages.
- GPT-4 à contexte long (évalué sur un sous-échantillon de 400 questions) : 46,5 % sur les documents courts (≤ 100 000 jetons) contre 23,0 % avec une stratégie "Résumer puis Répondre" sur les documents les plus longs (> 100 000 jetons). GPT-4 commet près de deux fois plus d'erreurs sur les documents longs que sur les courts.
- L'analyse PDF spécifique à la finance (Kensho Extract) a nettement surpassé l'analyse HTML gén érique (BeautifulSoup), en particulier pour la préservation des tableaux — une découverte pratique pour tout pipeline construit sur les dépôts SEC.
- Une fraction substantielle des segments pertinents se trouve au-delà de la position 250 du document, ce qui signifie que les stratégies basées sur la troncature rejettent silencieusement les preuves correctes avant même que le modèle ne les voie.
Ce qui tient la route — et ce qui ne tient pas
La contribution empirique principale est solide : le jeu de données est une extension fidèle de FinQA avec une méthodologie bien définie (score de similarité four-gram pour identifier les segments de référence, segments de 2 750 caractères avec 20 % de chevauchement), et la constatation que les performances se dégradent gravement avec la longueur du document est cohérente à la fois pour les approches de récupération et de contexte long. Le quasi-doublement des erreurs de GPT-4 sur les documents longs par rapport aux courts est frappant et difficile à écarter.
Ce que l'article n'aborde pas entièrement, c'est la frontière des modèles à contexte long de la cuvée 2024. L'évaluation du contexte long ne couvre que 400 échantillons, limitée par le coût, et ne teste pas Gemini 1.5 Pro (fenêtre de 1 million de jetons) ou Claude 3 (200 000). Les hyperparamètres de segmentation sont raisonnables mais ne font pas l'objet d'une ablation systématique, et la stratégie multi-appels "Résumer puis Répondre" n'est probablement pas la meilleure disponible — la récupération entrelacée d'IRCoT et la synthèse structurée de StructRAG suggèrent toutes deux que de meilleures approches existent pour l'agrégation de preuves multi-sauts dans les documents longs.
Le ColBERT affiné atteignant HR@3 = 0,55 révèle le problème de fond : la récupération sur de longs documents financiers reste en soi non résolue. Même avec un modèle génératif parfait, près de la moitié des requêtes recevraient une réponse construite à partir de passages erronés. L'article présente cela comme la contrainte limitante mais s'arrête avant de quantifier dans quelle mesure la précision se rétablit lorsque la récupération devient idéale (oracle).
Pourquoi c'est important pour l'IA financière
Les registres Beancount pluriannuels ne font pas 123 000 mots en moyenne par défaut, mais une décennie de transactions avec des notes détaillées y parvient facilement, et un agent financier opérant sur des rapports annuels complets est confronté exactement à ce régime. La compression entre "nous avons sélectionné les 700 mots corrects" (FinQA) et "voici le 10-Q complet" (DocFinQA) représente l'écart entre un banc d'essai théorique et la réalité de la production. DocFinQA rend cet écart mesurable.
La baisse de près de 50 % de la précision de GPT-4 entre les documents courts et longs plaide contre une simple réponse de type "utilisez simplement une fenêtre de contexte plus grande". La récupération reste nécessaire mais n'est fiable qu'à 55 % à HR@3. Pour un agent d'écriture Beancount devant localiser un tableau d'amortissement enfoui dans une annexe aux comptes datant d'un an, aucune architecture n'offre la fiabilité souhaitée avant de valider une écriture au journal. La lecture honnête de cet article : une meilleure récupération, une meilleure agrégation des preuves et une évaluation explicite des échecs silencieux — et non une fenêtre de contexte plus large — sont ce dont le domaine a réellement besoin.
Que lire ensuite
- "Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Fournit l'explication mécaniste de l'effondrement de la précision positionnelle mesuré par DocFinQA, avec la courbe de performance en U désormais canonique.
- "FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation" — arXiv:2504.15800, ICLR 2025 Workshop. Un successeur de 2025 avec 5 703 triplets requête-preuve-réponse conçus autour de requêtes de recherche financière professionnelle réalistes, incluant des abréviations et des acronymes que les systèmes de récupération standard manquent.
- "Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings" — arXiv:2602.07294. Un nouveau banc d'essai sur les dépôts SEC qui ajoute des tâches de suivi temporel au-delà de l'assurance qualité d'un document unique, plus proche de ce dont un agent d'audit Beancount aurait réellement besoin.
