Mike Thrift
Marketing Manager
FinQA : Le benchmark mesurant le raisonnement numérique de l'IA sur les rapports financiers
FinQA (EMNLP 2021) a construit 8 281 paires de questions-réponses à partir de rapports de résultats du S&P 500 nécessitant des programmes arithmétiques multi-étapes. Les modèles neuronaux ont obtenu un score de 61 % à leur sortie contre 91 % pour les experts humains ; la précision s'effondre à 22 % sur les programmes de trois étapes ou plus. Les modes d'échec — constantes de domaine, ancrage multi-modal, longueur de chaîne — correspondent directement aux défis auxquels les agents Beancount sont confrontés aujourd'hui.
FinanceBench : Pourquoi le RAG avec base de données vectorielle échoue sur les documents financiers réels
FinanceBench évalue 16 configurations d'IA par rapport à 10 231 questions issues de dépôts réels de la SEC ; le RAG avec base de données vectorielle partagée ne répond correctement que dans 19 % des cas, et même GPT-4-Turbo avec le passage oracle n'atteint que 85 % de précision — montrant que le raisonnement numérique, et non la récupération, est la contrainte limitante pour l'IA financière en entreprise.
DSPy : Remplacer l'ingénierie de prompt fragile par des pipelines LLM compilés
DSPy remplace les chaînes de prompts artisanales par des signatures déclaratives et un compilateur piloté par des métriques — faisant passer Llama2-13b de 9,4 % à 46,9 % sur le raisonnement mathématique GSM8K et offrant une voie plus maintenable pour les pipelines d'IA financière en production.
LATS : Language Agent Tree Search — Raisonnement, Action et Planification dans un Cadre Unique
LATS (Language Agent Tree Search, ICML 2024) unifie ReAct, Tree of Thoughts et Reflexion dans un cadre MCTS unique, atteignant un pass@1 de 92,7 % sur HumanEval avec GPT-4. Pour les grands livres Beancount basés sur git, l'exigence de réversion d'état qui limite LATS dans les environnements de production est trivialement satisfaite.
Self-RAG : Récupération adaptive et autocritique pour les LLM
Self-RAG (ICLR 2024 Oral) entraîne un modèle de langage à décider quand récupérer des informations puis à évaluer ses propres résultats à l'aide de quatre jetons de réflexion — atteignant 55,8 % sur PopQA et un FactScore de 80,2 sur les biographies tout en surpassant ChatGPT sur cinq références. L'analyse couvre le mécanisme, les résultats d'ablation, les limites de reproductibilité et les implications pour les agents d'IA financière sur les grands livres Beancount.
Voyager : Les bibliothèques de compétences comme fondement de l'apprentissage continu des agents IA
Voyager, un agent Minecraft propulsé par GPT-4 issu de NVIDIA et Caltech, démontre qu'une bibliothèque de compétences de code persistante permet un véritable apprentissage continu sans ajustement fin — découvrant 3,3 fois plus d'objets que l'état de l'art précédent. Ce modèle s'applique directement à l'automatisation à long terme des grands livres Beancount, bien que l'exactitude financière exige des couches de test que les bacs à sable de jeux ne requièrent jamais.
HippoRAG : Une mémoire à long terme pour les LLM inspirée par la neurobiologie
HippoRAG (NeurIPS 2024) construit un graphe de connaissances à partir de triplets OpenIE et applique le PageRank personnalisé lors de la requête, atteignant un Recall@5 de 89,1 % sur 2WikiMultiHopQA contre 68,2 % pour ColBERTv2 — avec des implications directes pour l'interrogation de registres financiers complexes sur des historiques de transactions pluriannuels.
AgentBench : Évaluer les LLM en tant qu'agents — Leçons pour la fiabilité de l'IA en finance
AgentBench (Liu et al., ICLR 2024) évalue 27 LLM à travers 8 environnements interactifs — GPT-4 a obtenu un score global de 4,01 contre 0,96 pour le meilleur modèle open-source. Les trois principaux modes d'échec (limite de tâches dépassée à 67,9 % des échecs de graphes de connaissances, erreurs de format à 53,3 % des échecs de bases de données et actions invalides) correspondent directement aux risques liés au déploiement d'un agent de réécriture Beancount sur un grand livre réel.
BloombergGPT et les limites des LLM spécialisés dans la finance
Bloomberg a entraîné un LLM de 50 milliards de paramètres sur 569 milliards de tokens de données financières et a surpassé les modèles généraux sur les benchmarks de sentiment et de raisonnement sur tableaux — puis GPT-4 l'a égalé sans aucun pré-entraînement spécifique à la finance. Ce que l'expérience à 10 millions de dollars révèle sur les compromis du pré-entraînement par domaine, la tokenisation des nombres et pourquoi l'utilisation d'outils est plus fiable que les composants internes du modèle pour les agents comptables.
AutoGen : Cadres de conversation multi-agents pour l'IA financière
AutoGen (Wu et al., 2023) introduit un cadre de conversation multi-agents où des agents basés sur des LLM s'échangent des messages pour accomplir des tâches ; une configuration à deux agents fait passer la précision du benchmark MATH de 55 % à 69 %, et un agent SafeGuard dédié améliore la détection de code dangereux jusqu'à 35 points F1 — des résultats directement applicables à la construction de pipelines d'automatisation Beancount sûrs et modulaires.
Gorilla : Comment le Retrieval-Aware Training réduit les hallucinations d'API des LLM de 78 % à 11 %
Gorilla (Patil et al., NeurIPS 2024) affine un modèle LLaMA 7B avec le Retriever-Aware Training sur la documentation d'API récupérée, réduisant les taux d'hallucination de 78 % à 11 % par rapport à GPT-4 en zero-shot — avec des implications directes pour les agents d'écriture IA en finance où les noms de comptes erronés ou les signes inversés sont des échecs d'exactitude, et non de simples désagréments.
MemGPT : Gestion virtuelle du contexte pour les agents LLM
MemGPT applique la pagination de mémoire virtuelle de type OS aux LLM, utilisant un stockage à trois niveaux — mémoire de travail, rappel et archivage — pour donner aux agents un rappel persistant d'une session à l'autre ; sur les benchmarks de chat multi-sessions, MemGPT avec GPT-4 atteint une précision de 92,5 % contre 32,1 % pour une base de référence à contexte fixe.