Mike Thrift
Marketing Manager
SWE-agent: Hoe interface-ontwerp geautomatiseerde software-engineering mogelijk maakt
SWE-agent (NeurIPS 2024) introduceert Agent-Computer Interfaces (ACI's) — speciaal gebouwde lagen tussen LLM's en softwareomgevingen — en toont een verbetering van 10,7 procentpunt ten opzichte van directe shell-toegang en een oplossingspercentage van 12,47% op SWE-bench met GPT-4 Turbo. Interface-ontwerp, niet de modelcapaciteit, is de primaire bottleneck voor autonome codeer-agents.
SWE-bench: Kunnen taalmodellen echte GitHub-problemen oplossen?
SWE-bench evalueert taalmodellen op 2.294 echte GitHub-issues in 12 Python-repositories met behulp van op uitvoering gebaseerde tests; bij publicatie loste Claude 2 slechts 1,96% van de issues op met realistische retrieval, waarmee de de facto benchmark voor codeer-agents werd vastgesteld en retrieval- en patchlengte-foutmodi werden onthuld die direct relevant zijn voor Beancount write-back agents.
CodeAct: Waarom uitvoerbare Python-code LLM-agents 20% nauwkeuriger maakt
CodeAct (ICML 2024) vervangt JSON-tool-aanroepen door uitvoerbare Python-code, waardoor het succespercentage van GPT-4-agents met ~20 procentpunten verbetert bij taken met meerdere tools en de interactierondes met 30% worden verminderd — met directe gevolgen voor het bouwen van betrouwbare Beancount-reconciliatie-agents.
LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI
Huang et al. (ICLR 2024) tonen aan dat LLM's die hun eigen redeneringen moeten herzien zonder externe feedback, consequent in nauwkeurigheid afnemen — GPT-4 zakt van 95,5% naar 91,5% op GSM8K — en wat dit betekent voor het ontwerpen van betrouwbare agenten voor Beancount-boekingen.
Tree of Thoughts: Doelgericht problemen oplossen met LLM-zoekalgoritmen
Tree of Thoughts (ToT) behaalt 74% op Game of 24 tegenover 4% voor standaard GPT-4 CoT door LLM-redeneringen te organiseren in een vertakkende zoekboom met pruning en backtracking — met directe implicaties voor meerstaps financiële classificatie en belastingoptimalisatie in Beancount-workflows.
CRITIC: Waarom LLM-zelfcorrectie feedback van externe tools vereist
CRITIC (ICLR 2024) behaalt een F1-winst van 7,7 op open-domein QA en een toxiciteitsreductie van 79,2% door LLM-revisie te baseren op signalen van externe tools — een 'verifieer-dan-corrigeer'-lus die direct aansluit op de veiligheid van terugschrijven voor financiële Beancount-agents.
Reflexion: Taalagenten die leren van fouten zonder hertraining
Reflexion (NeurIPS 2023) stelt LLM-agenten in staat om te verbeteren door verbale post-mortems op te slaan in een episodische buffer — geen gewichtsupdates vereist. Het bereikt 91% op HumanEval met GPT-4, maar faalt op WebShop, wat een structurele beperking onthult: verbale bekrachtiging werkt alleen wanneer de evaluator een helder, bruikbaar signaal afgeeft. Dit is wat dat betekent voor het bouwen van een zelfcorrigerende Beancount-grootboekagent.
Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought
Zelfconsistentie vervangt 'greedy' chain-of-thought decodering door een meerderheidsstemming over N gesamplede redeneerpaden — wat de GPT-3 nauwkeurigheid op GSM8K met 17,9 procentpunten verhoogt zonder enige fine-tuning — en is direct toepasbaar op financiële berekeningen in meerdere stappen waarbij een enkele LLM-decodering onbetrouwbaar is.
PAL: Program-Aided Language Models voor betrouwbare financiële rekenkunde
PAL (Program-Aided Language Models) behaalt een nauwkeurigheidswinst van +38 procentpunt ten opzichte van chain-of-thought bij rekenintensieve taken door berekeningen uit te besteden aan een Python-interpreter — een direct toepasbare architectuur voor betrouwbare Beancount-grootboekvragen en financiële AI.
Kunnen LLM's redeneren over tabelgegevens? Wat vier benchmarks ons vertellen over Finance AI
Vier benchmarks uit 2024–2025 laten zien dat GPT-4 42% scoort op real-world tabel-QA tegenover 86% voor mensen, waarbij complexe aggregaties instorten tot 19,6% — en de systeemeigen syntaxis van Beancount bevindt zich aan het minst presterende uiteinde van de serialisatiehiërarchie voor LLM-invoer.
Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's
Anthropic's Constitutional AI-artikel (Bai et al., 2022) traint LLM's om regels te volgen met behulp van AI-gegenereerde feedback in plaats van menselijke labels voor schadelijkheid. Dit onderzoeksdagboek onderzoekt hoe de RLAIF-pijplijn voor kritiek, herziening en voorkeuren vertaalt naar write-back-veiligheid voor autonome Beancount-grootboekagents — en hoe Goodharting, kalibratiefouten en dual-use-risico's eruitzien wanneer de "constitutie" een rekeningschema is in plaats van een ethische regelset.
Chain-of-Thought Prompting: Precision-Recall Trade-offs voor Finance AI
Een diepgaande analyse van de Chain-of-Thought-paper uit 2022 van Wei et al. en de betekenis daarvan voor finance AI — waarom CoT de precisie verhoogt maar de recall bij de detectie van zeldzame gebeurtenissen kan verlagen, waarom de schaaldrempel belangrijk is voor productie-agents, en waar een financieel team dat bouwt op LLM's op moet letten.