Aller au contenu principal
Reconciliation

Tout sur Reconciliation

10 articles
Automated ledger reconciliation using language model agents

FinRAGBench-V : RAG multimodal avec citations visuelles dans le domaine financier

FinRAGBench-V (EMNLP 2025) est le premier benchmark à grande échelle pour le RAG multimodal avec citations visuelles en finance, couvrant plus de 112 000 pages de documents et 1 394 paires de questions-réponses annotées par des humains. Les meilleurs modèles n'atteignent qu'un rappel de citation au niveau du bloc de 20 à 61 %, et la recherche multimodale surpasse la recherche textuelle de près de 50 points de pourcentage.

Les agents LLM peuvent-ils être directeurs financiers ? La simulation sur 132 mois d'EnterpriseArena révèle un écart important

EnterpriseArena soumet 11 LLM à une simulation de directeur financier sur 132 mois, suivant la survie, la valorisation finale et les taux de clôture comptable. Seul Qwen3.5-9B survit à 80 % des tests ; GPT-5.4 et DeepSeek-V3.1 tombent à 0 %. Les experts humains atteignent 100 % de survie avec une valeur finale 5 fois supérieure. Le goulot d'étranglement critique : les LLM ignorent le rapprochement du grand livre 80 % du temps, agissant sur un état financier obsolète.

FinMCP-Bench : Évaluation des agents LLM pour l'utilisation d'outils financiers réels sous MCP

FinMCP-Bench évalue six modèles LLM sur 613 tâches réelles d'utilisation d'outils financiers s'appuyant sur 65 serveurs MCP — le meilleur modèle obtient un score de 3,08 % de correspondance exacte sur les tâches multi-tours, révélant un effondrement des performances par 20 entre les scénarios à outil unique et multi-tours.

Found in the Middle : Calibrer le biais d'attention positionnelle améliore le RAG à long contexte

Une calibration au moment de l'inférence sans entraînement soustrait le biais positionnel des poids d'attention des LLM, récupérant jusqu'à 15 points de pourcentage de précision RAG lorsque les documents récupérés sont enfouis au milieu du contexte — et ce que cela signifie pour les pipelines d'agents spécifiques à la finance.

Fin-RATE : Comment les LLM échouent dans l'analyse financière multi-périodes et multi-entités

Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.

Voyager : Les bibliothèques de compétences comme fondement de l'apprentissage continu des agents IA

Voyager, un agent Minecraft propulsé par GPT-4 issu de NVIDIA et Caltech, démontre qu'une bibliothèque de compétences de code persistante permet un véritable apprentissage continu sans ajustement fin — découvrant 3,3 fois plus d'objets que l'état de l'art précédent. Ce modèle s'applique directement à l'automatisation à long terme des grands livres Beancount, bien que l'exactitude financière exige des couches de test que les bacs à sable de jeux ne requièrent jamais.

AutoGen : Cadres de conversation multi-agents pour l'IA financière

AutoGen (Wu et al., 2023) introduit un cadre de conversation multi-agents où des agents basés sur des LLM s'échangent des messages pour accomplir des tâches ; une configuration à deux agents fait passer la précision du benchmark MATH de 55 % à 69 %, et un agent SafeGuard dédié améliore la détection de code dangereux jusqu'à 35 points F1 — des résultats directement applicables à la construction de pipelines d'automatisation Beancount sûrs et modulaires.

CodeAct : Pourquoi le code Python exécutable rend les agents LLM 20 % plus précis

CodeAct (ICML 2024) remplace l'appel d'outils JSON par du code Python exécutable, améliorant les taux de réussite des agents GPT-4 d'environ 20 points de pourcentage sur les tâches multi-outils et réduisant les tours d'interaction de 30 % — avec des implications directes pour la création d'agents de rapprochement Beancount fiables.

CRITIC : Pourquoi l'auto-correction des LLM nécessite un retour d'outils externes

CRITIC (ICLR 2024) obtient des gains de 7,7 F1 sur le QA en domaine ouvert et une réduction de 79,2 % de la toxicité en ancrant la révision des LLM dans des signaux d'outils externes — une boucle vérification-puis-correction qui s'applique directement à la sécurité d'écriture pour les agents financiers Beancount.

ReAct : Synergie du raisonnement et de l'action dans les modèles de langage

ReAct (Yao et al., ICLR 2023) entremêle le raisonnement par chaîne de pensée avec des actions d'outils dans une trajectoire unique, surpassant la CoT pure sur la vérification des faits et l'apprentissage par imitation sur les tâches incarnées de 34 points de pourcentage. Cette analyse couvre les modes de défaillance de l'article — distraction induite par la recherche et erreurs cumulatives — et ce qu'ils signifient pour les agents autonomes écrivant dans les registres Beancount.