Bean Labs Research Log

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Les agents LLM peuvent-ils être directeurs financiers ? La simulation sur 132 mois d'EnterpriseArena révèle un écart important

EnterpriseArena soumet 11 LLM à une simulation de directeur financier sur 132 mois, suivant la survie, la valorisation finale et les taux de clôture comptable. Seul Qwen3.5-9B survit à 80 % des tests ; GPT-5.4 et DeepSeek-V3.1 tombent à 0 %. Les experts humains atteignent 100 % de survie avec une valeur finale 5 fois supérieure. Le goulot d'étranglement critique : les LLM ignorent le rapprochement du grand livre 80 % du temps, agissant sur un état financier obsolète.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench : Pourquoi aucun LLM ne dépasse 15 % de précision par session dans l'utilisation d'outils en conditions réelles

WildToolBench (ICLR 2026) évalue 57 LLM sur 1 024 tâches issues de comportements d'utilisateurs réels — aucun modèle ne dépasse 15 % de précision par session, l'orchestration compositionnelle, l'intention cachée et les transitions d'instructions étant les trois modes d'échec les plus marqués.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiance et calibration des LLM : une étude de ce que montre réellement la recherche

Une étude systématique des méthodes d'estimation de la confiance et de calibration des LLM — approches de logit boîte blanche, SelfCheckGPT basé sur la cohérence et entropie sémantique — révèle que les scores de confiance verbalisés de GPT-4 n'atteignent qu'environ 62,7 % d'AUROC, à peine plus que le hasard, avec des implications directes pour le déploiement d'agents sensibles à l'incertitude dans la finance et la comptabilité.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench : la complexité des schémas réels brise les garanties de sortie structurée des LLM

JSONSchemaBench teste 9 558 schémas JSON réels par rapport à six frameworks de décodage contraint et constate que la complexité des schémas fait s'effondrer la couverture de 86 % sur les schémas simples à 3 % sur les schémas complexes, XGrammar émettant silencieusement 38 sorties non conformes et aucun framework ne couvrant l'intégralité des 45 catégories de fonctionnalités de JSON Schema.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench : Évaluation des agents LLM pour l'utilisation d'outils financiers réels sous MCP

FinMCP-Bench évalue six modèles LLM sur 613 tâches réelles d'utilisation d'outils financiers s'appuyant sur 65 serveurs MCP — le meilleur modèle obtient un score de 3,08 % de correspondance exacte sur les tâches multi-tours, révélant un effondrement des performances par 20 entre les scénarios à outil unique et multi-tours.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace : Évaluation au niveau de la trajectoire de l'appel d'outils par les LLM pour les tâches financières

FinTrace évalue 13 LLM sur 800 trajectoires de tâches financières annotées par des experts selon 9 métriques, révélant que les modèles de pointe maîtrisent la sélection d'outils (F1 ~0,9) mais n'obtiennent que 3,23/5 sur l'utilisation de l'information — l'étape où les agents raisonnent sur les données retournées par les outils.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench : Évaluer les agents LLM sur l'utilisation d'outils financiers en conditions réelles

FinToolBench associe 760 outils API financiers en direct à 295 requêtes exécutables pour évaluer les agents LLM sur des tâches financières réelles — révélant que le taux d'invocation conservateur de 22,7 % de GPT-4o produit une qualité de réponse supérieure (CSS 0,670) par rapport au TIR agressif de 87,1 % de Qwen3-8B, tandis que l'inadéquation de l'intention dépasse 50 % pour tous les modèles testés.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval : un benchmark d'évaluation RAG omnidirectionnel pour le domaine financier

OmniEval (EMNLP 2025) évalue les systèmes RAG sur 5 types de tâches × 16 sujets financiers à l'aide de 11,4k cas de test auto-générés. Les meilleurs systèmes n'atteignent que 36 % de précision numérique — une preuve concrète que les pipelines RAG nécessitent des couches de validation avant d'écrire dans des registres financiers structurés.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Étude sur la détection d'anomalies par LLM (NAACL 2025) : Une taxonomie robuste, une couverture tabulaire absente

Une lecture critique de l'étude de Xu et Ding (NAACL 2025) sur la détection d'anomalies et d'OOD basée sur les LLM : si la taxonomie détection-vs-génération est pertinente, l'absence quasi totale de couverture des données tabulaires oblige les praticiens de l'IA financière à synthétiser eux-mêmes les enseignements issus des modèles de vision.

FinRAGBench-V : RAG multimodal avec citations visuelles dans le domaine financier

Latest articles

Les agents LLM peuvent-ils être directeurs financiers ? La simulation sur 132 mois d'EnterpriseArena révèle un écart important

WildToolBench : Pourquoi aucun LLM ne dépasse 15 % de précision par session dans l'utilisation d'outils en conditions réelles

Confiance et calibration des LLM : une étude de ce que montre réellement la recherche

JSONSchemaBench : la complexité des schémas réels brise les garanties de sortie structurée des LLM

FinMCP-Bench : Évaluation des agents LLM pour l'utilisation d'outils financiers réels sous MCP

FinTrace : Évaluation au niveau de la trajectoire de l'appel d'outils par les LLM pour les tâches financières

FinToolBench : Évaluer les agents LLM sur l'utilisation d'outils financiers en conditions réelles

OmniEval : un benchmark d'évaluation RAG omnidirectionnel pour le domaine financier

Étude sur la détection d'anomalies par LLM (NAACL 2025) : Une taxonomie robuste, une couverture tabulaire absente

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales