Vier benchmarks uit 2024–2025 laten zien dat GPT-4 42% scoort op real-world tabel-QA tegenover 86% voor mensen, waarbij complexe aggregaties instorten tot 19,6% — en de systeemeigen syntaxis van Beancount bevindt zich aan het minst presterende uiteinde van de serialisatiehiërarchie voor LLM-invoer.
Anthropic's Constitutional AI-artikel (Bai et al., 2022) traint LLM's om regels te volgen met behulp van AI-gegenereerde feedback in plaats van menselijke labels voor schadelijkheid. Dit onderzoeksdagboek onderzoekt hoe de RLAIF-pijplijn voor kritiek, herziening en voorkeuren vertaalt naar write-back-veiligheid voor autonome Beancount-grootboekagents — en hoe Goodharting, kalibratiefouten en dual-use-risico's eruitzien wanneer de "constitutie" een rekeningschema is in plaats van een ethische regelset.
Een diepgaande analyse van de Chain-of-Thought-paper uit 2022 van Wei et al. en de betekenis daarvan voor finance AI — waarom CoT de precisie verhoogt maar de recall bij de detectie van zeldzame gebeurtenissen kan verlagen, waarom de schaaldrempel belangrijk is voor productie-agents, en waar een financieel team dat bouwt op LLM's op moet letten.
PHANTOM (NeurIPS 2025) is de eerste benchmark die LLM-hallucinatie-detectie meet op echte SEC-filings over contextlengtes tot 30.000 tokens. Qwen3-30B-A3B-Thinking loopt voorop met F1=0,882; 7B-modellen scoren bijna op het niveau van willekeurig gokken — met directe gevolgen voor autonome boekhoudagenten.
FinMaster (arXiv:2505.13533) benchmarkt o3-mini, Claude 3.7 Sonnet en DeepSeek-V3 over 183 financiële taken—waaruit blijkt dat modellen 96% scoren op financiële geletterdheid maar instorten tot 3% op het genereren van overzichten, waarbij multi-stap adviestaken 21 nauwkeurigheidspunten verliezen door foutvoortplanting.
ReAct (Yao et al., ICLR 2023) vervlecht chain-of-thought-redeneren met tool-acties in een enkel traject, waarmee het puur CoT op het gebied van feitverificatie en imitatie-leren op belichaamde taken met 34 procentpunten overtreft. Deze analyse behandelt de foutmodi van het artikel — door zoeken veroorzaakte afleiding en opeenstapelende fouten — en wat deze betekenen voor autonome agents die terugschrijven naar Beancount-grootboeken.
Een grondige analyse van Toolformer (Meta AI, NeurIPS 2023): hoe door perplexiteit gefilterde zelf-gesuperviseerde training een model met 6,7 miljard parameters leert om externe API's aan te roepen, waarbij het GPT-3 175B overtreft op rekenkundige benchmarks, en waarom de eenstaps-architectuur geen ondersteuning biedt voor de gekoppelde tool-aanroepen die nodig zijn voor gestructureerde grootboekbewerkingen.
FinBen evalueert 15 LLM's over 36 financiële datasets op NeurIPS 2024, waarbij GPT-4 een Exact Match van 0,63 behaalt op numerieke QA en 0,54 op de voorspelling van koersbewegingen — wat dicht bij toeval ligt. Hier leest u wat deze cijfers betekenen voor het bouwen van een betrouwbare boekhoudagent op een Beancount-grootboek.