Aller au contenu principal

Bean Labs Research Log

FinQA : Le benchmark mesurant le raisonnement numérique de l'IA sur les rapports financiers

FinQA (EMNLP 2021) a construit 8 281 paires de questions-réponses à partir de rapports de résultats du S&P 500 nécessitant des programmes arithmétiques multi-étapes. Les modèles neuronaux ont obtenu un score de 61 % à leur sortie contre 91 % pour les experts humains ; la précision s'effondre à 22 % sur les programmes de trois étapes ou plus. Les modes d'échec — constantes de domaine, ancrage multi-modal, longueur de chaîne — correspondent directement aux défis auxquels les agents Beancount sont confrontés aujourd'hui.

Latest articles

FinanceBench : Pourquoi le RAG avec base de données vectorielle échoue sur les documents financiers réels

FinanceBench évalue 16 configurations d'IA par rapport à 10 231 questions issues de dépôts réels de la SEC ; le RAG avec base de données vectorielle partagée ne répond correctement que dans 19 % des cas, et même GPT-4-Turbo avec le passage oracle n'atteint que 85 % de précision — montrant que le raisonnement numérique, et non la récupération, est la contrainte limitante pour l'IA financière en entreprise.

LATS : Language Agent Tree Search — Raisonnement, Action et Planification dans un Cadre Unique

LATS (Language Agent Tree Search, ICML 2024) unifie ReAct, Tree of Thoughts et Reflexion dans un cadre MCTS unique, atteignant un pass@1 de 92,7 % sur HumanEval avec GPT-4. Pour les grands livres Beancount basés sur git, l'exigence de réversion d'état qui limite LATS dans les environnements de production est trivialement satisfaite.

Self-RAG : Récupération adaptive et autocritique pour les LLM

Self-RAG (ICLR 2024 Oral) entraîne un modèle de langage à décider quand récupérer des informations puis à évaluer ses propres résultats à l'aide de quatre jetons de réflexion — atteignant 55,8 % sur PopQA et un FactScore de 80,2 sur les biographies tout en surpassant ChatGPT sur cinq références. L'analyse couvre le mécanisme, les résultats d'ablation, les limites de reproductibilité et les implications pour les agents d'IA financière sur les grands livres Beancount.

Voyager : Les bibliothèques de compétences comme fondement de l'apprentissage continu des agents IA

Voyager, un agent Minecraft propulsé par GPT-4 issu de NVIDIA et Caltech, démontre qu'une bibliothèque de compétences de code persistante permet un véritable apprentissage continu sans ajustement fin — découvrant 3,3 fois plus d'objets que l'état de l'art précédent. Ce modèle s'applique directement à l'automatisation à long terme des grands livres Beancount, bien que l'exactitude financière exige des couches de test que les bacs à sable de jeux ne requièrent jamais.

HippoRAG : Une mémoire à long terme pour les LLM inspirée par la neurobiologie

HippoRAG (NeurIPS 2024) construit un graphe de connaissances à partir de triplets OpenIE et applique le PageRank personnalisé lors de la requête, atteignant un Recall@5 de 89,1 % sur 2WikiMultiHopQA contre 68,2 % pour ColBERTv2 — avec des implications directes pour l'interrogation de registres financiers complexes sur des historiques de transactions pluriannuels.

AgentBench : Évaluer les LLM en tant qu'agents — Leçons pour la fiabilité de l'IA en finance

AgentBench (Liu et al., ICLR 2024) évalue 27 LLM à travers 8 environnements interactifs — GPT-4 a obtenu un score global de 4,01 contre 0,96 pour le meilleur modèle open-source. Les trois principaux modes d'échec (limite de tâches dépassée à 67,9 % des échecs de graphes de connaissances, erreurs de format à 53,3 % des échecs de bases de données et actions invalides) correspondent directement aux risques liés au déploiement d'un agent de réécriture Beancount sur un grand livre réel.

BloombergGPT et les limites des LLM spécialisés dans la finance

Bloomberg a entraîné un LLM de 50 milliards de paramètres sur 569 milliards de tokens de données financières et a surpassé les modèles généraux sur les benchmarks de sentiment et de raisonnement sur tableaux — puis GPT-4 l'a égalé sans aucun pré-entraînement spécifique à la finance. Ce que l'expérience à 10 millions de dollars révèle sur les compromis du pré-entraînement par domaine, la tokenisation des nombres et pourquoi l'utilisation d'outils est plus fiable que les composants internes du modèle pour les agents comptables.

AutoGen : Cadres de conversation multi-agents pour l'IA financière

AutoGen (Wu et al., 2023) introduit un cadre de conversation multi-agents où des agents basés sur des LLM s'échangent des messages pour accomplir des tâches ; une configuration à deux agents fait passer la précision du benchmark MATH de 55 % à 69 %, et un agent SafeGuard dédié améliore la détection de code dangereux jusqu'à 35 points F1 — des résultats directement applicables à la construction de pipelines d'automatisation Beancount sûrs et modulaires.