Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

Les LLM peuvent-ils raisonner sur des données tabulaires ? Ce que quatre benchmarks nous disent sur l'IA financière

Quatre benchmarks 2024–2025 montrent que GPT-4 obtient un score de 42 % sur les questions-réponses de tableaux réels contre 86 % pour les humains, avec des agrégations complexes chutant à 19,6 % — et la syntaxe native de Beancount se situe au bas de la hiérarchie de sérialisation pour les entrées LLM.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

IA constitutionnelle pour les agents comptables : RLAIF, règles de politique et risques de Goodharting

L'article d'Anthropic sur l'IA constitutionnelle (Bai et al., 2022) forme les LLM à suivre des règles en utilisant des retours générés par l'IA plutôt que des étiquettes de préjudice humain. Ce journal de recherche examine comment le pipeline critique-révision-préférence de la RLAIF s'applique à la sécurité de l'écriture pour les agents autonomes du grand livre Beancount — et à quoi ressemblent le Goodharting, les échecs de calibration et les risques de double usage lorsque la « constitution » est un plan comptable au lieu d'un ensemble de règles éthiques.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

Prompting Chain-of-Thought : Compromis Précision-Rappel pour l'IA en Finance

Une lecture attentive de l'article de 2022 de Wei et al. sur la chaîne de pensée (Chain-of-Thought) et ses implications pour l'IA financière — pourquoi la CoT augmente la précision mais peut réduire le rappel lors de la détection d'événements rares, pourquoi le seuil d'échelle est crucial pour les agents en production, et les points de vigilance pour une équipe financière s'appuyant sur les LLM.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers

PHANTOM (NeurIPS 2025) est le premier benchmark mesurant la détection d'hallucinations par les LLM sur de réels dépôts SEC avec des longueurs de contexte allant jusqu'à 30 000 tokens. Qwen3-30B-A3B-Thinking arrive en tête avec un F1=0,882 ; les modèles 7B obtiennent des scores proches du hasard — avec des implications directes pour les agents comptables autonomes.

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

Benchmark FinMaster : Pourquoi les LLM obtiennent 96 % en littératie financière mais seulement 3 % en génération d'états financiers

FinMaster (arXiv:2505.13533) évalue o3-mini, Claude 3.7 Sonnet et DeepSeek-V3 sur 183 tâches financières — révélant que les modèles atteignent 96 % en littératie financière mais s'effondrent à 3 % pour la génération d'états financiers, avec une perte de 21 points de précision due à la propagation d'erreurs dans les tâches de conseil multi-étapes.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct : Synergie du raisonnement et de l'action dans les modèles de langage

ReAct (Yao et al., ICLR 2023) entremêle le raisonnement par chaîne de pensée avec des actions d'outils dans une trajectoire unique, surpassant la CoT pure sur la vérification des faits et l'apprentissage par imitation sur les tâches incarnées de 34 points de pourcentage. Cette analyse couvre les modes de défaillance de l'article — distraction induite par la recherche et erreurs cumulatives — et ce qu'ils signifient pour les agents autonomes écrivant dans les registres Beancount.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer : Utilisation d'outils auto-supervisée et ses limites pour l'IA financière

Une lecture attentive de Toolformer (Meta AI, NeurIPS 2023) : comment l'entraînement auto-supervisé filtré par la perplexité apprend à un modèle de 6,7 milliards de paramètres à appeler des API externes, où il surpasse GPT-3 175B sur les tests d'arithmétique, et pourquoi son architecture à étape unique ne peut pas prendre en charge les appels d'outils en chaîne requis pour les opérations de comptabilité structurée.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen : Évaluation des LLM sur 36 tâches financières — Implications pour l'IA comptable

FinBen évalue 15 LLM à travers 36 ensembles de données financières lors de NeurIPS 2024, révélant que GPT-4 atteint une correspondance exacte de 0,63 sur le QA numérique et 0,54 sur la prévision des mouvements boursiers — proche du hasard. Voici ce que ces chiffres signifient pour la création d'un agent comptable fiable sur un grand livre Beancount.

PAL : Modèles de langage assistés par programme pour une arithmétique financière fiable

Latest articles

Les LLM peuvent-ils raisonner sur des données tabulaires ? Ce que quatre benchmarks nous disent sur l'IA financière

IA constitutionnelle pour les agents comptables : RLAIF, règles de politique et risques de Goodharting

Prompting Chain-of-Thought : Compromis Précision-Rappel pour l'IA en Finance

PHANTOM (NeurIPS 2025) : Mesurer la détection d'hallucinations par les LLM dans les documents financiers

Benchmark FinMaster : Pourquoi les LLM obtiennent 96 % en littératie financière mais seulement 3 % en génération d'états financiers

ReAct : Synergie du raisonnement et de l'action dans les modèles de langage

Toolformer : Utilisation d'outils auto-supervisée et ses limites pour l'IA financière

FinBen : Évaluation des LLM sur 36 tâches financières — Implications pour l'IA comptable

Lancez-vous avec Beancount.io

Pour commencer

Fonctionnalités

Communauté

Mentions légales