FinDER : Les requêtes réelles des analystes révèlent un écart de rappel de 74 % dans le RAG financier
FinDER (arXiv:2504.15800) est un benchmark de récupération conçu autour d'une observation simple mais sous-estimée : les requêtes que les professionnels de la finance saisissent réellement ne ressemblent en rien aux questions polies des benchmarks académiques. Je l'étudie car il se situe à l'intersection de deux thématiques que je suis de près : l'écart de récupération dans l'IA financière et le problème de réalisme pratique que DocFinQA et FinanceBench ont commencé à mettre en lumière.
L'article
Chanyeol Choi, Jihoon Kwon et leurs collègues d'une société d'IA financière présentent un ensemble de données de 5 703 triplets requête-preuve-réponse annotés par des experts, provenant d'un service de questions-réponses pour analystes de fonds spéculatifs. Les documents sont des formulaires 10-K de 490 sociétés du S&P 500, collectés sur SEC EDGAR. Ce qui distingue FinDER des benchmarks précédents, c'est le type de requêtes : 89,86 % d'entre elles contiennent trois abréviations ou acronymes spécifiques au domaine ou plus. Au lieu de « Quel est le revenu total de la société X pour l'exercice 2023 ? », un analyste réel pourrait taper « GOOGL 10-K FY23 revs breakdown by segment ». L'ensemble de données a été publié lors de l'atelier ICLR 2025 sur les avancées de l'IA financière et est apparu plus tard à l'ICAIF 2025.
Idées clés
- Le rappel de récupération est choquant de faiblesse partout : E5-Mistral (le meilleur modèle de récupération dense) n'atteint que 25,95 % de rappel global du contexte ; BM25 s'arrête à 11,68 %. La catégorie « Financials » — la plus directement liée à la comptabilité — est la plus difficile : 15,84 % et 6,42 % respectivement.
- L'ambiguïté des requêtes coûte à elle seule 8,2 points de précision : En testant E5-Mistral sur 500 requêtes, les auteurs comparent des paraphrases bien formulées (33,9 de précision) aux requêtes abrégées réelles (25,7 de précision). L'écart est entièrement attribuable à la gestion des abréviations et acronymes, et non à la complexité des documents.
- La qualité de la récupération est le goulot d'étranglement dominant pour la génération : Les LLM sans contexte obtiennent un score proche de zéro (9 à 10 % de réponses correctes) ; avec les 10 meilleurs passages récupérés, ils atteignent 29 à 34 % ; avec un contexte d'oracle parfait, ils bondissent à 60-68 %. Cet écart de 35 points entre les conditions réalistes et l'oracle est plus important que l'écart entre les modèles open-source et les modèles de pointe.
- L'arithmétique compositionnelle échoue même avec une bonne récupération : Les tâches de calcul en plusieurs étapes (requêtes compositionnelles) n'atteignent qu'environ 20 % d'exactitude sur les quatre modèles — Claude-3.7-Sonnet, GPT-o1, DeepSeek-R1-Distill et Qwen-QWQ — même avec les 10 meilleurs passages récupérés. GPT-o1 mène sur les multiplications avec 42,90 % mais chute à 27,78 % sur les divisions.
- Le réordonnancement par LLM apporte une amélioration modeste mais constante : En laissant les modèles réordonner les 10 meilleurs résultats d'E5-Mistral avant de répondre, Claude-3.7-Sonnet atteint un F1 de 63,05 et GPT-o1 atteint 62,90. Deepseek-R1-Distill suit à 60,01, malgré de fortes performances en raisonnement structuré par ailleurs.
- La difficulté par catégorie est inégale : Les requêtes sur les risques sont les plus faciles à récupérer (E5-Mistral : 33,07 de rappel) ; les données financières restent les plus difficiles (15,84). Cela corrèle avec la structure des requêtes — les divulgations de risques utilisent de la prose en langage naturel, tandis que les tableaux financiers utilisent une notation numérique dense.
Ce qui tient la route — et ce qui ne la tient pas
La contribution principale est solide : il s'agit d'une distribution de requêtes réelles d'analystes en activité, et le problème des abréviations est authentique. Tout benchmark construit à partir de Wikipédia ou de crowdsourcing de type FinQA passe à côté de cela. La structure d'évaluation à trois niveaux — sans contexte, récupération réaliste, contexte d'oracle — est la bonne conception ; elle sépare proprement la qualité de la récupération de la qualité du raisonnement et montre l'écart de génération résiduel (toujours ~32-34 % d'échec même avec un contexte parfait sur des questions qualitatives).
Le point faible de l'article est la reproductibilité. Au moment de la publication, l'ensemble de données n'était pas public — les auteurs déclarant qu'ils « prévoient de le rendre public ultérieurement ». C'est un problème majeur pour un article d'atelier se présentant comme un standard d'évaluation. Des benchmarks qui ne sont pas publiés ne sont pas des benchmarks ; ce sont des études de cas. Il est apparu depuis à l'ICAIF 2025, donc une publication a pu suivre, mais la version arXiv ne le confirme pas.
L'évaluation de la récupération n'utilise également que quatre modèles à étape unique (BM25, GTE, mE5, E5-Mistral). Il n'y a pas de récupération hybride, pas d'expansion de requête, pas de HyDE, ni d'étape de réécriture ciblant spécifiquement le problème des abréviations. Étant donné que les auteurs ont précisément caractérisé l'écart dû aux abréviations, il est surprenant qu'ils ne testent pas la solution évidente : étendre la requête (« GOOGL » → « Alphabet Inc. ») avant la récupération. Cette expérience est absente.
Les résultats de génération méritent une lecture attentive. La performance de ~9-10 % sans contexte n'est pas une borne inférieure utile — c'est essentiellement zéro — mais le plafond de l'oracle à 60-68 % est plus informatif qu'il n'y paraît. Même avec le bon passage en main, les meilleurs modèles échouent sur environ un tiers des questions qualitatives et quatre cinquièmes de l'arithmétique compositionnelle. Ce plafond compte : il signifie que la récupération seule ne peut pas résoudre le problème.
Pourquoi cela compte pour l'IA financière
La distribution des requêtes dans FinDER correspond bien à la manière dont les utilisateurs de Beancount interagissent réellement avec un agent de grand livre. Un utilisateur qui tient ses comptes depuis des années tapera des requêtes abrégées et contextuelles — « AMZN card Q3 reimb? » plutôt que « Quels sont les remboursements par carte de crédit Amazon au troisième trimestre ? ». Les modèles d'embedding standards échoueront à récupérer les bonnes entrées car ils ont été entraînés sur du texte propre en langage naturel. La chute de précision de 8,2 points entre les requêtes propres et réelles est probablement conservatrice pour le domaine d'un grand livre personnel, où le sténogramme idiosyncrasique (« prop mgmt fee » pour « frais de gestion immobilière ») est encore plus éloigné des données d'entraînement que les abréviations standards de la SEC.
Le plafond de rappel de contexte de 25,95 % sur E5-Mistral est une contrainte structurelle : tout pipeline RAG pour Beancount doit prévoir une large fraction de preuves manquées. Une implication est qu'une nouvelle récupération à haut rappel (passes multiples, formulations de requêtes diversifiées) importe plus que l'amélioration du F1 sur une seule passe. Une autre est que la normalisation des requêtes — mapper le sténogramme de l'utilisateur vers des noms de comptes canoniques avant la récupération — devrait être une étape de prétraitement explicite, et non laissée au modèle d'embedding.
L'exactitude de 20 % en arithmétique compositionnelle, même avec un contexte d'oracle, est un signal distinct : pour les tâches de calcul Beancount, le goulot d'étranglement de la génération est le raisonnement, pas la récupération. Le déchargement de style PAL (générer de l'arithmétique Python plutôt qu'un calcul en texte libre) reste la bonne réponse pour les tâches numériques, quelle que soit la qualité de la récupération.
Que lire ensuite
- Fin-RATE (arXiv:2602.07294) — le benchmark compagnon pour le suivi multi-période sur les dépôts SEC ; l'exactitude chute de 18,60 % sur les tâches temporelles, ce qui correspond directement au problème du grand livre Beancount sur plusieurs années.
- IRCoT (arXiv:2212.10509, ACL 2023) — entrelacer la récupération avec le raisonnement par chaîne de pensée ; la structure de récupération multi-passes répond directement au faible rappel en une seule passe révélé par FinDER.
- Expansion de requêtes avec LLM pour la récupération spécifique à un domaine — aucun article de benchmark ne couvre encore bien ce sujet, mais l'écart d'abréviation de FinDER en fait une priorité de recherche de premier ordre ; chercher « HyDE financial domain » et « query expansion SEC filings 2025 » est le bon point de départ.
