FinRAGBench-V (EMNLP 2025) est le premier benchmark à grande échelle pour le RAG multimodal avec citations visuelles en finance, couvrant plus de 112 000 pages de documents et 1 394 paires de questions-réponses annotées par des humains. Les meilleurs modèles n'atteignent qu'un rappel de citation au niveau du bloc de 20 à 61 %, et la recherche multimodale surpasse la recherche textuelle de près de 50 points de pourcentage.
WildToolBench (ICLR 2026) évalue 57 LLM sur 1 024 tâches issues de comportements d'utilisateurs réels — aucun modèle ne dépasse 15 % de précision par session, l'orchestration compositionnelle, l'intention cachée et les transitions d'instructions étant les trois modes d'échec les plus marqués.
Une étude systématique des méthodes d'estimation de la confiance et de calibration des LLM — approches de logit boîte blanche, SelfCheckGPT basé sur la cohérence et entropie sémantique — révèle que les scores de confiance verbalisés de GPT-4 n'atteignent qu'environ 62,7 % d'AUROC, à peine plus que le hasard, avec des implications directes pour le déploiement d'agents sensibles à l'incertitude dans la finance et la comptabilité.
FinToolBench associe 760 outils API financiers en direct à 295 requêtes exécutables pour évaluer les agents LLM sur des tâches financières réelles — révélant que le taux d'invocation conservateur de 22,7 % de GPT-4o produit une qualité de réponse supérieure (CSS 0,670) par rapport au TIR agressif de 87,1 % de Qwen3-8B, tandis que l'inadéquation de l'intention dépasse 50 % pour tous les modèles testés.
OmniEval (EMNLP 2025) évalue les systèmes RAG sur 5 types de tâches × 16 sujets financiers à l'aide de 11,4k cas de test auto-générés. Les meilleurs systèmes n'atteignent que 36 % de précision numérique — une preuve concrète que les pipelines RAG nécessitent des couches de validation avant d'écrire dans des registres financiers structurés.
Une lecture critique de l'étude de Xu et Ding (NAACL 2025) sur la détection d'anomalies et d'OOD basée sur les LLM : si la taxonomie détection-vs-génération est pertinente, l'absence quasi totale de couverture des données tabulaires oblige les praticiens de l'IA financière à synthétiser eux-mêmes les enseignements issus des modèles de vision.
Une calibration au moment de l'inférence sans entraînement soustrait le biais positionnel des poids d'attention des LLM, récupérant jusqu'à 15 points de pourcentage de précision RAG lorsque les documents récupérés sont enfouis au milieu du contexte — et ce que cela signifie pour les pipelines d'agents spécifiques à la finance.
Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.
FinDER évalue le RAG sur 5 703 requêtes réelles d'analystes de fonds spéculatifs par rapport aux dépôts 10-K du S&P 500 ; E5-Mistral n'atteint que 25,95 % de rappel de contexte, et les requêtes riches en abréviations coûtent 8,2 points de précision — la preuve que la normalisation des requêtes, et non de meilleurs embeddings, est la première correction à apporter aux pipelines d'IA financière.
L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.