Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

Kunnen LLM's redeneren over tabelgegevens? Wat vier benchmarks ons vertellen over Finance AI

Vier benchmarks uit 2024–2025 laten zien dat GPT-4 42% scoort op real-world tabel-QA tegenover 86% voor mensen, waarbij complexe aggregaties instorten tot 19,6% — en de systeemeigen syntaxis van Beancount bevindt zich aan het minst presterende uiteinde van de serialisatiehiërarchie voor LLM-invoer.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's

Anthropic's Constitutional AI-artikel (Bai et al., 2022) traint LLM's om regels te volgen met behulp van AI-gegenereerde feedback in plaats van menselijke labels voor schadelijkheid. Dit onderzoeksdagboek onderzoekt hoe de RLAIF-pijplijn voor kritiek, herziening en voorkeuren vertaalt naar write-back-veiligheid voor autonome Beancount-grootboekagents — en hoe Goodharting, kalibratiefouten en dual-use-risico's eruitzien wanneer de "constitutie" een rekeningschema is in plaats van een ethische regelset.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

Chain-of-Thought Prompting: Precision-Recall Trade-offs voor Finance AI

Een diepgaande analyse van de Chain-of-Thought-paper uit 2022 van Wei et al. en de betekenis daarvan voor finance AI — waarom CoT de precisie verhoogt maar de recall bij de detectie van zeldzame gebeurtenissen kan verlagen, waarom de schaaldrempel belangrijk is voor productie-agents, en waar een financieel team dat bouwt op LLM's op moet letten.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Het meten van LLM-hallucinatie-detectie in financiële documenten

PHANTOM (NeurIPS 2025) is de eerste benchmark die LLM-hallucinatie-detectie meet op echte SEC-filings over contextlengtes tot 30.000 tokens. Qwen3-30B-A3B-Thinking loopt voorop met F1=0,882; 7B-modellen scoren bijna op het niveau van willekeurig gokken — met directe gevolgen voor autonome boekhoudagenten.

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

FinMaster Benchmark: Waarom LLM's 96% scoren op financiële geletterdheid maar 3% op het genereren van overzichten

FinMaster (arXiv:2505.13533) benchmarkt o3-mini, Claude 3.7 Sonnet en DeepSeek-V3 over 183 financiële taken—waaruit blijkt dat modellen 96% scoren op financiële geletterdheid maar instorten tot 3% op het genereren van overzichten, waarbij multi-stap adviestaken 21 nauwkeurigheidspunten verliezen door foutvoortplanting.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Synergie tussen redeneren en handelen in taalmodellen

ReAct (Yao et al., ICLR 2023) vervlecht chain-of-thought-redeneren met tool-acties in een enkel traject, waarmee het puur CoT op het gebied van feitverificatie en imitatie-leren op belichaamde taken met 34 procentpunten overtreft. Deze analyse behandelt de foutmodi van het artikel — door zoeken veroorzaakte afleiding en opeenstapelende fouten — en wat deze betekenen voor autonome agents die terugschrijven naar Beancount-grootboeken.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: Zelf-gesuperviseerd toolgebruik en de beperkingen voor Finance AI

Een grondige analyse van Toolformer (Meta AI, NeurIPS 2023): hoe door perplexiteit gefilterde zelf-gesuperviseerde training een model met 6,7 miljard parameters leert om externe API's aan te roepen, waarbij het GPT-3 175B overtreft op rekenkundige benchmarks, en waarom de eenstaps-architectuur geen ondersteuning biedt voor de gekoppelde tool-aanroepen die nodig zijn voor gestructureerde grootboekbewerkingen.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen: Benchmarking van LLM's over 36 financiële taken — implicaties voor AI in de boekhouding

FinBen evalueert 15 LLM's over 36 financiële datasets op NeurIPS 2024, waarbij GPT-4 een Exact Match van 0,63 behaalt op numerieke QA en 0,54 op de voorspelling van koersbewegingen — wat dicht bij toeval ligt. Hier leest u wat deze cijfers betekenen voor het bouwen van een betrouwbare boekhoudagent op een Beancount-grootboek.

PAL: Program-Aided Language Models voor betrouwbare financiële rekenkunde

Latest articles

Kunnen LLM's redeneren over tabelgegevens? Wat vier benchmarks ons vertellen over Finance AI

Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's

Chain-of-Thought Prompting: Precision-Recall Trade-offs voor Finance AI

PHANTOM (NeurIPS 2025): Het meten van LLM-hallucinatie-detectie in financiële documenten

FinMaster Benchmark: Waarom LLM's 96% scoren op financiële geletterdheid maar 3% op het genereren van overzichten

ReAct: Synergie tussen redeneren en handelen in taalmodellen

Toolformer: Zelf-gesuperviseerd toolgebruik en de beperkingen voor Finance AI

FinBen: Benchmarking van LLM's over 36 financiële taken — implicaties voor AI in de boekhouding

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch