Aller au contenu principal

Fin-RATE : Comment les LLM échouent dans l'analyse financière multi-périodes et multi-entités

· 8 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

La trajectoire des benchmarks de LLM financiers ne cesse d'élargir son champ d'action, et Fin-RATE est l'exemple le plus probant à ce jour de ce qui se produit lorsque nous demandons enfin aux modèles de faire ce que font les vrais analystes : suivre une entreprise non seulement au sein d'un seul dépôt, mais sur plusieurs périodes et par rapport à ses pairs du secteur.

L'article

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

Fin-RATE, publié en février 2026 par Yidong Jiang, Junrong Chen et leurs collègues de Yale et d'institutions partenaires, introduit un benchmark construit à partir de 2 472 dépôts SEC concernant 43 entreprises et 36 secteurs couvrant la période 2020-2025. Le benchmark organise 7 500 paires de questions-réponses curatées par des experts en trois types de tâches qui reflètent les flux de travail des analystes professionnels : DR-QA (détail et raisonnement au sein d'un seul dépôt), EC-QA (comparaison multi-entités de deux entreprises sur un sujet commun) et LT-QA (suivi longitudinal de la même entreprise à travers les périodes de reporting). Chaque type de tâche contient 2 500 questions. L'évaluation porte sur 17 LLM — des modèles propriétaires incluant GPT-4.1 et GPT-5, des modèles open-source généralistes comme DeepSeek-V3 et Llama-3.3-70B, et des modèles spécialisés en finance comme Fin-R1, Fino1-14B, FinanceConnect-13B et TouchstoneGPT-7B. La notation utilise un cadre unifié "LLM-as-Judge" avec trois juges indépendants (GPT-5, DeepSeek-V3.2, Qwen3-235B) évaluant chaque réponse sur l'exactitude et cinq dimensions analytiques.

Idées clés

  • La performance s'effondre à mesure que la complexité de la tâche augmente : la précision chute de 18,60 % entre la DR-QA sur document unique et la LT-QA longitudinale, et de 14,35 % entre la DR-QA et la EC-QA multi-entités, en moyenne sur les 17 modèles.
  • GPT-5 avec recherche web est le plus performant, pourtant sa précision maximale ne plafonne qu'à 43-44 % sur les trois types de tâches — un résultat médiocre pour un benchmark censé refléter les flux de travail réels des analystes.
  • Fin-R1, le modèle de raisonnement spécialisé en finance, atteint 57,48 % sur la DR-QA mais s'effondre à 3,32 % sur la EC-QA — une chute de 54 points qui dépasse de loin la dégradation de n'importe quel modèle généraliste.
  • Dans des configurations RAG (Génération Augmentée par Récupération), la performance de tous les modèles tombe bien en dessous de 27 %, comparativement à une performance avec contexte de référence ("gold context") allant jusqu'à 57,48 % ; le pipeline de récupération, et non le LLM, est le goulot d'étranglement limitant.
  • L'article introduit une taxonomie d'erreurs en 13 types répartis en quatre catégories : hallucinations et contradictions, erreurs numériques et sémantiques spécifiques à la finance, erreurs de compréhension de la requête/du contexte, et échecs au niveau de la récupération. Le manque de preuves ("Missing Evidence") représente 75,44 % des erreurs sur la tâche EC-QA sous RAG.
  • Les modèles spécialisés en finance affichent des taux d'hallucination systématiquement plus élevés que les modèles généralistes sur les tâches complexes, malgré une meilleure maîtrise de la terminologie financière.

Ce qui tient la route — et ce qui ne tient pas

La structure à trois voies est véritablement bien conçue. La plupart des benchmarks financiers (FinQA, TAT-QA, FinanceBench) traitent les questions-réponses comme une tâche sur un document unique. Fin-RATE est l'un des premiers à modéliser explicitement la comparaison multi-entités et le suivi longitudinal comme des tâches de premier plan, et les résultats exposent une lacune fondamentale : les LLM actuels gèrent passablement les questions-réponses sur des divulgations isolées, mais s'effondrent dès qu'ils doivent synthétiser des informations à travers plusieurs documents, entités ou périodes.

L'effondrement de Fin-R1 est la découverte la plus frappante de l'article et je pense qu'elle est sous-estimée. Un modèle optimisé pour la finance qui excelle dans l'extraction sur document unique s'est apparemment enfermé dans une impasse lors de son entraînement : il a appris des modèles pour répondre au sein d'un seul document, et non des stratégies de raisonnement pour mettre en relation des entités et des périodes temporelles. C'est un avertissement concret contre le réglage fin (fine-tuning) sur un domaine étroit sans supervision explicite du raisonnement multi-documents. Le modèle a probablement sur-appris le schéma superficiel consistant à "trouver le chiffre dans le dépôt" et n'a aucune voie de généralisation pour "comparer ce chiffre au chiffre équivalent dans un autre dépôt d'une autre entreprise".

Cela dit, certaines préoccupations méthodologiques méritent d'être signalées. GPT-5 est simultanément l'un des modèles évalués et l'un des trois juges notant les réponses. Les auteurs utilisent trois juges pour réduire les biais individuels, ce qui aide, mais le chevauchement juge-modèle avec le modèle évalué le plus puissant est inconfortable. L'article rapporte un accord inter-juges élevé mais ne quantifie pas séparément quelle fraction des réponses de GPT-5 a été notée par GPT-5 lui-même, ni si les scores auto-évalués de GPT-5 diffèrent systématiquement des deux autres juges. Tout biais d'auto-évaluation gonflerait le résultat global pour le modèle le plus performant de l'étude.

L'échantillon de 43 entreprises est également restreint. La couverture des types de dépôts est louablement large (10-K, 10-Q, 8-K, 6-K, DEF 14A, et plusieurs séries S et SC), mais les mêmes 43 entreprises apparaissent dans toutes les tâches. Les modèles ayant vu les divulgations de ces entreprises lors du pré-entraînement bénéficient d'un avantage non quantifié, et l'article n'inclut aucune analyse de contamination.

La découverte sur la récupération est importante mais incomplète. L'article identifie que la performance RAG s'effondre d'environ 30 points par rapport au contexte de référence parce que la récupération échoue. Mais il ne teste qu'une seule configuration de récupération — il traite l'échec de récupération comme un diagnostic plutôt que comme une variable à faire varier systématiquement. Un article de suivi balayant les architectures de récupération sur Fin-RATE serait bien plus exploitable.

Pourquoi c'est important pour l'IA financière

L'audit de grand livre Beancount nécessite précisément les deux capacités que Fin-RATE révèle comme défaillantes : le suivi longitudinal (comment ce compte a-t-il évolué au fil des exercices ?) et la comparaison multi-entités (le bilan de cette filiale concorde-t-il avec l'état consolidé ?). La chute de précision de 18,60 % sous suivi temporel est un chiffre concret qui devrait calibrer les attentes pour tout agent Beancount raisonnant sur plusieurs périodes de reporting. Si les modèles de pointe échouent à 43 % lors de questions-réponses longitudinales sur la SEC avec un contexte de référence, un agent Beancount naviguant dans des historiques de grands livres sur plusieurs années devrait être conçu avec une récupération explicite, un ancrage temporel et une escalade humaine — et non une inférence LLM de bout en bout.

La primauté de la récupération est la découverte la plus importante pour la priorité de conception des systèmes. Si la performance avec contexte de référence est presque le double de la performance RAG, le bon investissement réside dans un meilleur découpage (chunking), une meilleure sélection de passages et une meilleure récupération — et non dans un LLM de base plus performant. Cela reflète ce que DocFinQA a trouvé pour les dépôts SEC à contexte long : le pipeline autour du modèle est le goulot d'étranglement.

L'avertissement concernant Fin-R1 s'applique également directement au cas d'usage Beancount. Un réglage fin sur la syntaxe DSL de Beancount et les schémas de transactions peut produire un modèle qui gère bien la génération d'écritures simples, mais qui échoue lors du rapprochement multi-comptes et multi-périodes qui rend l'audit utile. La spécialisation sans entraînement au raisonnement multi-documents est fragile, précisément de la manière mesurée par Fin-RATE.

Que lire ensuite

  • Fin-R1 (arXiv:2503.16252) — pour comprendre quelle configuration d'entraînement a produit une performance multi-documents aussi fragile, et si le raisonnement multi-documents a jamais été envisagé.
  • FinTrace (arXiv:2604.10015) — évaluation au niveau de la trajectoire de l'appel d'outils par les LLM à travers 34 catégories de tâches financières ; complète la vision statique de Fin-RATE par un diagnostic au niveau du processus indiquant où les modèles invoquent les bons outils mais échouent à raisonner sur les résultats.
  • OpenHands (arXiv:2407.16741) — la plateforme d'agents ouverte sous-jacente aux évaluations de TheAgentCompany ; comprendre son architecture permet de clarifier quelles capacités d'agent de base étaient disponibles et quelles lacunes sont attribuables à la difficulté de la tâche plutôt qu'aux limitations de la plateforme.