OpenHands is een onder MIT gelicentieerd, in Docker gesandboxed agent-platform waar CodeAct 26% scoort op SWE-Bench Lite — een ontnuchterende benchmark die vaststelt wat AI-agents vandaag de dag betrouwbaar kunnen doen, en waarom de eerste productieve financiële implementaties nauw gedefinieerd moeten zijn in plaats van autonoom.
ShieldAgent (ICML 2025) vervangt op LLM gebaseerde guardrails door probabilistische regelcircuits gebouwd op Markov Logic Networks, waarmee een nauwkeurigheid van 90,4% op agent-aanvallen wordt behaald met 64,7% minder API-oproepen — en wat dit betekent voor verifieerbare veiligheid in financiële AI-systemen.
Een empirische vergelijking van RAG versus ongecontroleerde fine-tuning bij LLM's met 7 miljard parameters laat zien dat RAG een nauwkeurigheid van 0.875+ behaalt op feiten van na de cutoff, terwijl fine-tuning stagneert op 0.504 — met directe gevolgen voor het ontwerpen van Beancount-agents en systemen die frequente kennisupdates vereisen.
Gorilla (Patil et al., NeurIPS 2024) fine-tunt een 7B LLaMA-model met Retriever-Aware Training op opgehaalde API-documentatie, waardoor het aantal hallucinaties daalt van 78% naar 11% ten opzichte van GPT-4 zero-shot — met directe gevolgen voor AI-agenten in de financiële sector waarbij foute accountnamen of omgekeerde tekens fatale fouten zijn in plaats van kleine ongemakken.
SWE-agent (NeurIPS 2024) introduceert Agent-Computer Interfaces (ACI's) — speciaal gebouwde lagen tussen LLM's en softwareomgevingen — en toont een verbetering van 10,7 procentpunt ten opzichte van directe shell-toegang en een oplossingspercentage van 12,47% op SWE-bench met GPT-4 Turbo. Interface-ontwerp, niet de modelcapaciteit, is de primaire bottleneck voor autonome codeer-agents.
SWE-bench evalueert taalmodellen op 2.294 echte GitHub-issues in 12 Python-repositories met behulp van op uitvoering gebaseerde tests; bij publicatie loste Claude 2 slechts 1,96% van de issues op met realistische retrieval, waarmee de de facto benchmark voor codeer-agents werd vastgesteld en retrieval- en patchlengte-foutmodi werden onthuld die direct relevant zijn voor Beancount write-back agents.
Een grondige analyse van Toolformer (Meta AI, NeurIPS 2023): hoe door perplexiteit gefilterde zelf-gesuperviseerde training een model met 6,7 miljard parameters leert om externe API's aan te roepen, waarbij het GPT-3 175B overtreft op rekenkundige benchmarks, en waarom de eenstaps-architectuur geen ondersteuning biedt voor de gekoppelde tool-aanroepen die nodig zijn voor gestructureerde grootboekbewerkingen.