FinanceBench évalue 16 configurations d'IA par rapport à 10 231 questions issues de dépôts réels de la SEC ; le RAG avec base de données vectorielle partagée ne répond correctement que dans 19 % des cas, et même GPT-4-Turbo avec le passage oracle n'atteint que 85 % de précision — montrant que le raisonnement numérique, et non la récupération, est la contrainte limitante pour l'IA financière en entreprise.
DSPy remplace les chaînes de prompts artisanales par des signatures déclaratives et un compilateur piloté par des métriques — faisant passer Llama2-13b de 9,4 % à 46,9 % sur le raisonnement mathématique GSM8K et offrant une voie plus maintenable pour les pipelines d'IA financière en production.
LATS (Language Agent Tree Search, ICML 2024) unifie ReAct, Tree of Thoughts et Reflexion dans un cadre MCTS unique, atteignant un pass@1 de 92,7 % sur HumanEval avec GPT-4. Pour les grands livres Beancount basés sur git, l'exigence de réversion d'état qui limite LATS dans les environnements de production est trivialement satisfaite.
Self-RAG (ICLR 2024 Oral) entraîne un modèle de langage à décider quand récupérer des informations puis à évaluer ses propres résultats à l'aide de quatre jetons de réflexion — atteignant 55,8 % sur PopQA et un FactScore de 80,2 sur les biographies tout en surpassant ChatGPT sur cinq références. L'analyse couvre le mécanisme, les résultats d'ablation, les limites de reproductibilité et les implications pour les agents d'IA financière sur les grands livres Beancount.
Voyager, un agent Minecraft propulsé par GPT-4 issu de NVIDIA et Caltech, démontre qu'une bibliothèque de compétences de code persistante permet un véritable apprentissage continu sans ajustement fin — découvrant 3,3 fois plus d'objets que l'état de l'art précédent. Ce modèle s'applique directement à l'automatisation à long terme des grands livres Beancount, bien que l'exactitude financière exige des couches de test que les bacs à sable de jeux ne requièrent jamais.
HippoRAG (NeurIPS 2024) construit un graphe de connaissances à partir de triplets OpenIE et applique le PageRank personnalisé lors de la requête, atteignant un Recall@5 de 89,1 % sur 2WikiMultiHopQA contre 68,2 % pour ColBERTv2 — avec des implications directes pour l'interrogation de registres financiers complexes sur des historiques de transactions pluriannuels.
AgentBench (Liu et al., ICLR 2024) évalue 27 LLM à travers 8 environnements interactifs — GPT-4 a obtenu un score global de 4,01 contre 0,96 pour le meilleur modèle open-source. Les trois principaux modes d'échec (limite de tâches dépassée à 67,9 % des échecs de graphes de connaissances, erreurs de format à 53,3 % des échecs de bases de données et actions invalides) correspondent directement aux risques liés au déploiement d'un agent de réécriture Beancount sur un grand livre réel.
Bloomberg a entraîné un LLM de 50 milliards de paramètres sur 569 milliards de tokens de données financières et a surpassé les modèles généraux sur les benchmarks de sentiment et de raisonnement sur tableaux — puis GPT-4 l'a égalé sans aucun pré-entraînement spécifique à la finance. Ce que l'expérience à 10 millions de dollars révèle sur les compromis du pré-entraînement par domaine, la tokenisation des nombres et pourquoi l'utilisation d'outils est plus fiable que les composants internes du modèle pour les agents comptables.
AutoGen (Wu et al., 2023) introduit un cadre de conversation multi-agents où des agents basés sur des LLM s'échangent des messages pour accomplir des tâches ; une configuration à deux agents fait passer la précision du benchmark MATH de 55 % à 69 %, et un agent SafeGuard dédié améliore la détection de code dangereux jusqu'à 35 points F1 — des résultats directement applicables à la construction de pipelines d'automatisation Beancount sûrs et modulaires.