FinanceBench evalueert 16 AI-configuraties aan de hand van 10.231 vragen uit echte SEC-filings; shared-vector-store RAG antwoordt slechts in 19% van de gevallen correct, en zelfs GPT-4-Turbo met de oracle-passage bereikt slechts 85% nauwkeurigheid — wat aantoont dat numeriek redeneren, niet retrieval, de beperkende factor is voor enterprise finance AI.
DSPy vervangt handmatige prompt-strings door declaratieve signaturen en een metriek-gestuurde compiler—waardoor Llama2-13b stijgt van 9,4% naar 46,9% op GSM8K wiskundig redeneren en een meer onderhoudbaar pad biedt voor AI-pipelines in de financiële sector.
LATS (Language Agent Tree Search, ICML 2024) verenigt ReAct, Tree of Thoughts en Reflexion in één MCTS-framework, en behaalt een pass@1 van 92,7% op HumanEval met GPT-4. Voor Beancount-grootboeken met Git-beheer wordt de vereiste voor status-reversie, die LATS in productieomgevingen beperkt, triviaal vervuld.
Self-RAG (ICLR 2024 Oral) traint een taalmodel om te beslissen wanneer informatie moet worden opgehaald en vervolgens de eigen resultaten te beoordelen met behulp van vier reflectie-tokens — met resultaten van 55,8% op PopQA en een FactScore van 80,2 op biografieën, waarmee het ChatGPT op vijf benchmarks overtreft. De analyse behandelt het mechanisme, de ablatieresultaten, beperkingen in reproduceerbaarheid en implicaties voor financiële AI-agents op basis van Beancount-grootboeken.
Voyager, een door GPT-4 aangedreven Minecraft-agent van NVIDIA en Caltech, laat zien dat een persistente code-vaardigheidsbibliotheek echt levenslang leren mogelijk maakt zonder fine-tuning — met de ontdekking van 3,3x meer items dan eerdere state-of-the-art modellen. Dit patroon is direct toepasbaar op lange-termijn automatisering van Beancount-grootboeken, hoewel financiële correctheid staging-lagen vereist die in game-sandboxes nooit nodig zijn.
HippoRAG (NeurIPS 2024) bouwt een kennisgraaf van OpenIE-triples en past Personalized PageRank toe op het moment van de query. Het bereikt een Recall@5 van 89,1% op 2WikiMultiHopQA vergeleken met 68,2% voor ColBERTv2—met directe implicaties voor het bevragen van complexe financiële grootboeken over meerjarige transactiegeschiedenissen.
AgentBench (Liu et al., ICLR 2024) benchmarkt 27 LLM's in 8 interactieve omgevingen — GPT-4 scoorde gemiddeld 4,01 tegenover 0,96 voor het beste open-sourcemodel. De drie dominante foutmodi (overschrijding van de taaklimiet bij 67,9% van de fouten in de kennisgraaf, formaatfouten bij 53,3% van de databasefouten, en ongeldige acties) sluiten direct aan bij de risico's van het inzetten van een Beancount write-back-agent op een echt grootboek.
Bloomberg trainde een LLM met 50 miljard parameters op 569 miljard tokens aan financiële gegevens en versloeg algemene modellen op benchmarks voor sentiment en tabelredenering — waarna GPT-4 dit evenaarde zonder enige financiële pre-training. Wat het experiment van $10 miljoen onthult over de afwegingen bij domein-pre-training, de tokenisatie van getallen en waarom het gebruik van tools betrouwbaarder is dan interne model-logica voor boekhoudagenten.
AutoGen (Wu et al., 2023) introduceert een multi-agent conversatie-framework waarin door LLM ondersteunde agenten berichten uitwisselen om taken te voltooien; een configuratie met twee agenten verhoogt de nauwkeurigheid van de MATH-benchmark van 55% naar 69%, en een toegewijde SafeGuard-agent verbetert de detectie van onveilige code met maximaal 35 F1-punten — bevindingen die direct toepasbaar zijn op het bouwen van veilige, modulaire Beancount-automatiseringspijplijnen.