FinRAGBench-V (EMNLP 2025) est le premier benchmark à grande échelle pour le RAG multimodal avec citations visuelles en finance, couvrant plus de 112 000 pages de documents et 1 394 paires de questions-réponses annotées par des humains. Les meilleurs mod èles n'atteignent qu'un rappel de citation au niveau du bloc de 20 à 61 %, et la recherche multimodale surpasse la recherche textuelle de près de 50 points de pourcentage.
Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.
FinDER évalue le RAG sur 5 703 requêtes réelles d'analystes de fonds spéculatifs par rapport aux dépôts 10-K du S&P 500 ; E5-Mistral n'atteint que 25,95 % de rappel de contexte, et les requêtes riches en abréviations coûtent 8,2 points de précision — la preuve que la normalisation des requêtes, et non de meilleurs embeddings, est la première correction à apporter aux pipelines d'IA financière.
DocFinQA remplace les passages sélectionnés de 700 mots de FinQA par l'intégralité des dépôts SEC de 123 000 mots, exposant une augmentation de contexte de 175× qui réduit de près de moitié la précision de GPT-4 sur les documents longs. Les pipelines de récupération ne parviennent pas à extraire le bon segment 45 % du temps à HR@3 — et les modèles à contexte long ne sont pas un substitut.
FinAuditing teste 13 LLM en zero-shot sur 1 102 instances réelles de dépôts XBRL de la SEC ; les meilleurs scores sont de 13,86 % sur la vérification mathématique financière et de 12,42 % sur l'extraction de concepts — des résultats qui limitent directement ce que les outils de comptabilité par IA peuvent automatiser en toute confiance sans outils externes.
TAT-LLM affine LLaMA 2 7B avec LoRA sur des benchmarks de QA table-texte financiers, atteignant 64,60 % d'EM sur FinQA — dépassant les 63,91 % de GPT-4 — en décomposant le raisonnement en étapes déterministes Extraire-Raisonner-Exécuter qui éliminent les erreurs arithmétiques.
MultiHiertt (ACL 2022) présente 10 440 paires de questions-réponses issues de rapports financiers réels comprenant en moyenne 3,89 tableaux hiérarchiques chacun ; les modèles de pointe obtiennent un score F1 de 38 % contre 87 % pour les humains, avec une pénalité de 15 points pour les questions multi-tableaux — quantifiant l'écart de récupération que l'IA financière doit combler.
ConvFinQA (EMNLP 2022) étend FinQA à la conversation multi-tours sur les rapports de résultats du S&P 500, révélant que le meilleur modèle affiné atteint une précision d'exécution de 68,9 % contre 89,4 % pour les experts humains — et tombe à 52,4 % lors de conversations hybrides multi-aspects où les modèles doivent transporter le contexte numérique à travers différents sujets financiers.
TAT-QA est un benchmark de 16 552 questions sur des contextes de rapports financiers hybrides (tableaux et textes) ayant démontré que l'ancrage des preuves — et non l'arithmétique — est le principal goulot d'étranglement de l'IA en finance ; en 2024, des LLM 7B affinés ont atteint 83 % de F1, comblant l'essentiel de l'écart face au plafond humain de 91 %.
FinQA (EMNLP 2021) a construit 8 281 paires de questions-réponses à partir de rapports de résultats du S&P 500 nécessitant des programmes arithmétiques multi-étapes. Les modèles neuronaux ont obtenu un score de 61 % à leur sortie contre 91 % pour les experts humains ; la précision s'effondre à 22 % sur les programmes de trois étapes ou plus. Les modes d'échec — constantes de domaine, ancrage multi-modal, longueur de chaîne — correspondent directement aux défis auxquels les agents Beancount sont confrontés aujourd'hui.