Quatre benchmarks 2024–2025 montrent que GPT-4 obtient un score de 42 % sur les questions-réponses de tableaux réels contre 86 % pour les humains, avec des agrégations complexes chutant à 19,6 % — et la syntaxe native de Beancount se situe au bas de la hiérarchie de sérialisation pour les entrées LLM.
L'article d'Anthropic sur l'IA constitutionnelle (Bai et al., 2022) forme les LLM à suivre des règles en utilisant des retours générés par l'IA plutôt que des étiquettes de préjudice humain. Ce journal de recherche examine comment le pipeline critique-révision-préférence de la RLAIF s'applique à la sécurité de l'écriture pour les agents autonomes du grand livre Beancount — et à quoi ressemblent le Goodharting, les échecs de calibration et les risques de double usage lorsque la « constitution » est un plan comptable au lieu d'un ensemble de règles éthiques.
Une lecture attentive de l'article de 2022 de Wei et al. sur la chaîne de pensée (Chain-of-Thought) et ses implications pour l'IA financière — pourquoi la CoT augmente la précision mais peut réduire le rappel lors de la détection d'événements rares, pourquoi le seuil d'échelle est crucial pour les agents en production, et les points de vigilance pour une équipe financière s'appuyant sur les LLM.
PHANTOM (NeurIPS 2025) est le premier benchmark mesurant la détection d'hallucinations par les LLM sur de réels dépôts SEC avec des longueurs de contexte allant jusqu'à 30 000 tokens. Qwen3-30B-A3B-Thinking arrive en tête avec un F1=0,882 ; les modèles 7B obtiennent des scores proches du hasard — avec des implications directes pour les agents comptables autonomes.
FinMaster (arXiv:2505.13533) évalue o3-mini, Claude 3.7 Sonnet et DeepSeek-V3 sur 183 tâches financières — révélant que les modèles atteignent 96 % en littératie financière mais s'effondrent à 3 % pour la génération d'états financiers, avec une perte de 21 points de précision due à la propagation d'erreurs dans les tâches de conseil multi-étapes.
ReAct (Yao et al., ICLR 2023) entremêle le raisonnement par chaîne de pensée avec des actions d'outils dans une trajectoire unique, surpassant la CoT pure sur la vérification des faits et l'apprentissage par imitation sur les tâches incarnées de 34 points de pourcentage. Cette analyse couvre les modes de défaillance de l'article — distraction induite par la recherche et erreurs cumulatives — et ce qu'ils signifient pour les agents autonomes écrivant dans les registres Beancount.
Une lecture attentive de Toolformer (Meta AI, NeurIPS 2023) : comment l'entraînement auto-supervisé filtré par la perplexité apprend à un modèle de 6,7 milliards de paramètres à appeler des API externes, où il surpasse GPT-3 175B sur les tests d'arithmétique, et pourquoi son architecture à étape unique ne peut pas prendre en charge les appels d'outils en chaîne requis pour les opérations de comptabilité structurée.
FinBen évalue 15 LLM à travers 36 ensembles de données financières lors de NeurIPS 2024, révélant que GPT-4 atteint une correspondance exacte de 0,63 sur le QA numérique et 0,54 sur la prévision des mouvements boursiers — proche du hasard. Voici ce que ces chiffres signifient pour la création d'un agent comptable fiable sur un grand livre Beancount.