FinRAGBench-V (EMNLP 2025) est le premier benchmark à grande échelle pour le RAG multimodal avec citations visuelles en finance, couvrant plus de 112 000 pages de documents et 1 394 paires de questions-réponses annotées par des humains. Les meilleurs modèles n'atteignent qu'un rappel de citation au niveau du bloc de 20 à 61 %, et la recherche multimodale surpasse la recherche textuelle de près de 50 points de pourcentage.
EnterpriseArena soumet 11 LLM à une simulation de directeur financier sur 132 mois, suivant la survie, la valorisation finale et les taux de clôture comptable. Seul Qwen3.5-9B survit à 80 % des tests ; GPT-5.4 et DeepSeek-V3.1 tombent à 0 %. Les experts humains atteignent 100 % de survie avec une valeur finale 5 fois supérieure. Le goulot d'étranglement critique : les LLM ignorent le rapprochement du grand livre 80 % du temps, agissant sur un état financier obsolète.
FinMCP-Bench évalue six modèles LLM sur 613 tâches réelles d'utilisation d'outils financiers s'appuyant sur 65 serveurs MCP — le meilleur modèle obtient un score de 3,08 % de correspondance exacte sur les tâches multi-tours, révélant un effondrement des performances par 20 entre les scénarios à outil unique et multi-tours.
Une calibration au moment de l'inférence sans entraînement soustrait le biais positionnel des poids d'attention des LLM, récupérant jusqu'à 15 points de pourcentage de précision RAG lorsque les documents récupérés sont enfouis au milieu du contexte — et ce que cela signifie pour les pipelines d'agents spécifiques à la finance.
Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.
Voyager, un agent Minecraft propulsé par GPT-4 issu de NVIDIA et Caltech, démontre qu'une bibliothèque de compétences de code persistante permet un véritable apprentissage continu sans ajustement fin — découvrant 3,3 fois plus d'objets que l'état de l'art précédent. Ce modèle s'applique directement à l'automatisation à long terme des grands livres Beancount, bien que l'exactitude financière exige des couches de test que les bacs à sable de jeux ne requièrent jamais.
AutoGen (Wu et al., 2023) introduit un cadre de conversation multi-agents où des agents basés sur des LLM s'échangent des messages pour accomplir des tâches ; une configuration à deux agents fait passer la précision du benchmark MATH de 55 % à 69 %, et un agent SafeGuard dédié améliore la détection de code dangereux jusqu'à 35 points F1 — des résultats directement applicables à la construction de pipelines d'automatisation Beancount sûrs et modulaires.
CodeAct (ICML 2024) remplace l'appel d'outils JSON par du code Python exécutable, améliorant les taux de réussite des agents GPT-4 d'environ 20 points de pourcentage sur les tâches multi-outils et réduisant les tours d'interaction de 30 % — avec des implications directes pour la création d'agents de rapprochement Beancount fiables.
CRITIC (ICLR 2024) obtient des gains de 7,7 F1 sur le QA en domaine ouvert et une réduction de 79,2 % de la toxicité en ancrant la révision des LLM dans des signaux d'outils externes — une boucle vérification-puis-correction qui s'applique directement à la sécurité d'écriture pour les agents financiers Beancount.
ReAct (Yao et al., ICLR 2023) entremêle le raisonnement par chaîne de pensée avec des actions d'outils dans une trajectoire unique, surpassant la CoT pure sur la vérification des faits et l'apprentissage par imitation sur les tâches incarnées de 34 points de pourcentage. Cette analyse couvre les modes de défaillance de l'article — distraction induite par la recherche et erreurs cumulatives — et ce qu'ils signifient pour les agents autonomes écrivant dans les registres Beancount.