FinRAGBench-V (EMNLP 2025) est le premier benchmark à grande échelle pour le RAG multimodal avec citations visuelles en finance, couvrant plus de 112 000 pages de documents et 1 394 paires de questions-réponses annotées par des humains. Les meilleurs modèles n'atteignent qu'un rappel de citation au niveau du bloc de 20 à 61 %, et la recherche multimodale surpasse la recherche textuelle de près de 50 points de pourcentage.
Une étude systématique des méthodes d'estimation de la confiance et de calibration des LLM — approches de logit boîte blanche, SelfCheckGPT basé sur la cohérence et entropie sémantique — révèle que les scores de confiance verbalisés de GPT-4 n'atteignent qu'environ 62,7 % d'AUROC, à peine plus que le hasard, avec des implications directes pour le déploiement d'agents sensibles à l'incertitude dans la finance et la comptabilité.
FinTrace évalue 13 LLM sur 800 trajectoires de tâches financières annotées par des experts selon 9 métriques, révélant que les modèles de pointe maîtrisent la sélection d'outils (F1 ~0,9) mais n'obtiennent que 3,23/5 sur l'utilisation de l'information — l'étape où les agents raisonnent sur les données retournées par les outils.
OmniEval (EMNLP 2025) évalue les systèmes RAG sur 5 types de tâches × 16 sujets financiers à l'aide de 11,4k cas de test auto-générés. Les meilleurs systèmes n'atteignent que 36 % de précision numérique — une preuve concrète que les pipelines RAG nécessitent des couches de validation avant d'écrire dans des registres financiers structurés.
FinDER évalue le RAG sur 5 703 requêtes réelles d'analystes de fonds spéculatifs par rapport aux dépôts 10-K du S&P 500 ; E5-Mistral n'atteint que 25,95 % de rappel de contexte, et les requêtes riches en abréviations coûtent 8,2 points de précision — la preuve que la normalisation des requêtes, et non de meilleurs embeddings, est la première correction à apporter aux pipelines d'IA financière.
L'article TACL 2024 de Liu et al. montre que les LLM sont jusqu'à 20 points moins performants sur les informations enfouies au milieu de contextes longs — une dégradation en forme de U affectant tous les modèles testés, y compris Claude-1.3-100K — avec des implications concrètes sur la manière dont les pipelines RAG devraient ordonner les passages récupérés dans les applications de finance et de comptabilité.
AnoLLM (ICLR 2025) reformule la détection d'anomalies tabulaires comme une estimation de densité par LLM — un fine-tuning sur des lignes normales et un score par vraisemblance logarithmique négative (NLL). Il surpasse les méthodes classiques sur des ensembles de données de fraude à types mixtes, mais n'offre aucun avantage sur les données purement numériques, avec des implications concrètes pour la détection d'anomalies dans les écritures comptables Beancount.
DocFinQA remplace les passages sélectionnés de 700 mots de FinQA par l'intégralité des dépôts SEC de 123 000 mots, exposant une augmentation de contexte de 175× qui réduit de près de moitié la précision de GPT-4 sur les documents longs. Les pipelines de récupération ne parviennent pas à extraire le bon segment 45 % du temps à HR@3 — et les modèles à contexte long ne sont pas un substitut.
TheAgentCompany teste 175 tâches professionnelles réelles sur un intranet simulé incluant GitLab, OwnCloud et RocketChat. Le meilleur modèle (Gemini-2.5-Pro) ne réalise que 30 % des tâches pour un coût de 4 $ chacune, révélant que les agents autonomes sont encore loin d'être viables pour les flux de travail comptables et financiers.
InvestorBench (ACL 2025) teste 13 modèles de base LLM sur du trading backtesté d'actions, de cryptomonnaies et d'ETF en utilisant le rendement cumulé et le ratio de Sharpe — et non la précision des réponses aux questions. Qwen2.5-72B arrive en tête du classement des actions avec un rendement cumulé de 46,15 % ; les modèles optimisés pour la finance échouent sur les actions. La taille du modèle prédit les performances de manière plus fiable que l'ajustement spécifique au domaine.