57 articles tagués avec « Automation »

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Les agents LLM peuvent-ils être directeurs financiers ? La simulation sur 132 mois d'EnterpriseArena révèle un écart important

EnterpriseArena soumet 11 LLM à une simulation de directeur financier sur 132 mois, suivant la survie, la valorisation finale et les taux de clôture comptable. Seul Qwen3.5-9B survit à 80 % des tests ; GPT-5.4 et DeepSeek-V3.1 tombent à 0 %. Les experts humains atteignent 100 % de survie avec une valeur finale 5 fois supérieure. Le goulot d'étranglement critique : les LLM ignorent le rapprochement du grand livre 80 % du temps, agissant sur un état financier obsolète.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench : Pourquoi aucun LLM ne dépasse 15 % de précision par session dans l'utilisation d'outils en conditions réelles

WildToolBench (ICLR 2026) évalue 57 LLM sur 1 024 tâches issues de comportements d'utilisateurs réels — aucun modèle ne dépasse 15 % de précision par session, l'orchestration compositionnelle, l'intention cachée et les transitions d'instructions étant les trois modes d'échec les plus marqués.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench : la complexité des schémas réels brise les garanties de sortie structurée des LLM

JSONSchemaBench teste 9 558 schémas JSON réels par rapport à six frameworks de décodage contraint et constate que la complexité des schémas fait s'effondrer la couverture de 86 % sur les schémas simples à 3 % sur les schémas complexes, XGrammar émettant silencieusement 38 sorties non conformes et aucun framework ne couvrant l'intégralité des 45 catégories de fonctionnalités de JSON Schema.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench : Évaluation des agents LLM pour l'utilisation d'outils financiers réels sous MCP

FinMCP-Bench évalue six modèles LLM sur 613 tâches réelles d'utilisation d'outils financiers s'appuyant sur 65 serveurs MCP — le meilleur modèle obtient un score de 3,08 % de correspondance exacte sur les tâches multi-tours, révélant un effondrement des performances par 20 entre les scénarios à outil unique et multi-tours.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace : Évaluation au niveau de la trajectoire de l'appel d'outils par les LLM pour les tâches financières

FinTrace évalue 13 LLM sur 800 trajectoires de tâches financières annotées par des experts selon 9 métriques, révélant que les modèles de pointe maîtrisent la sélection d'outils (F1 ~0,9) mais n'obtiennent que 3,23/5 sur l'utilisation de l'information — l'étape où les agents raisonnent sur les données retournées par les outils.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench : Évaluer les agents LLM sur l'utilisation d'outils financiers en conditions réelles

FinToolBench associe 760 outils API financiers en direct à 295 requêtes exécutables pour évaluer les agents LLM sur des tâches financières réelles — révélant que le taux d'invocation conservateur de 22,7 % de GPT-4o produit une qualité de réponse supérieure (CSS 0,670) par rapport au TIR agressif de 87,1 % de Qwen3-8B, tandis que l'inadéquation de l'intention dépasse 50 % pour tous les modèles testés.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval : un benchmark d'évaluation RAG omnidirectionnel pour le domaine financier

OmniEval (EMNLP 2025) évalue les systèmes RAG sur 5 types de tâches × 16 sujets financiers à l'aide de 11,4k cas de test auto-générés. Les meilleurs systèmes n'atteignent que 36 % de précision numérique — une preuve concrète que les pipelines RAG nécessitent des couches de validation avant d'écrire dans des registres financiers structurés.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Found in the Middle : Calibrer le biais d'attention positionnelle améliore le RAG à long contexte

Une calibration au moment de l'inférence sans entraînement soustrait le biais positionnel des poids d'attention des LLM, récupérant jusqu'à 15 points de pourcentage de précision RAG lorsque les documents récupérés sont enfouis au milieu du contexte — et ce que cela signifie pour les pipelines d'agents spécifiques à la finance.

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

ReDAct utilise par défaut un petit modèle et ne passe à un modèle coûteux que lorsque la perplexité au niveau des jetons signale une incertitude, réalisant 64 % d'économies par rapport à GPT-5.2 seul tout en égalant ou dépassant sa précision — un modèle directement applicable aux agents de catégorisation de transactions Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

OpenHands est une plateforme d'agents sous licence MIT et isolée par Docker, où CodeAct atteint 26 % sur SWE-Bench Lite — un benchmark lucide qui établit ce que les agents d'IA peuvent faire de manière fiable aujourd'hui, et pourquoi les premiers déploiements financiers productifs devraient être strictement délimités plutôt qu'autonomes.

Tout sur Automation

Les agents LLM peuvent-ils être directeurs financiers ? La simulation sur 132 mois d'EnterpriseArena révèle un écart important

WildToolBench : Pourquoi aucun LLM ne dépasse 15 % de précision par session dans l'utilisation d'outils en conditions réelles

JSONSchemaBench : la complexité des schémas réels brise les garanties de sortie structurée des LLM

FinMCP-Bench : Évaluation des agents LLM pour l'utilisation d'outils financiers réels sous MCP

FinTrace : Évaluation au niveau de la trajectoire de l'appel d'outils par les LLM pour les tâches financières

FinToolBench : Évaluer les agents LLM sur l'utilisation d'outils financiers en conditions réelles

OmniEval : un benchmark d'évaluation RAG omnidirectionnel pour le domaine financier

Found in the Middle : Calibrer le biais d'attention positionnelle améliore le RAG à long contexte

Report avec détection d'incertitude pour les agents LLM : quand passer d'un petit à un grand modèle

OpenHands : une plateforme ouverte pour les agents logiciels d'IA et son impact sur l'automatisation de la finance

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales