FinRAGBench-V (EMNLP 2025) is de eerste grootschalige benchmark voor multimodale RAG met visuele citaten in de financiële sector, met meer dan 112.000 documentpagina's en 1.394 door mensen geannoteerde QA-paren. Topmodellen behalen slechts 20–61% recall op blokniveau voor citaten, en multimodale retrieval presteert bijna 50 procentpunten beter dan alleen tekst.
EnterpriseArena onderwerpt 11 LLM's aan een 132-maanden durende CFO-simulatie waarbij overleving, eindwaardering en boekafsluitingspercentages worden bijgehouden. Alleen Qwen3.5-9B overleeft 80% van de runs; GPT-5.4 en DeepSeek-V3.1 halen 0%. Menselijke experts bereiken 100% overleving met een 5x hogere eindwaarde. Het kritieke knelpunt: LLM's slaan in 80% van de gevallen de grootboekreconciliatie over en handelen op basis van verouderde financiële statussen.
FinMCP-Bench evalueert zes LLM-modellen op 613 praktijkgerichte financiële taken voor het gebruik van tools, ondersteund door 65 MCP-servers — het beste model scoort 3,08% exacte overeenkomst bij multi-turn taken, wat een prestatie-instorting van 20× laat zien van enkelvoudige naar multi-turn scenario's.
Een trainingsvrije kalibratie tijdens de inferentie-tijd trekt de positionele bias af van de LLM-aandachtsgewichten, waardoor tot 15 procentpunten aan RAG-nauwkeurigheid wordt hersteld wanneer opgehaalde documenten midden in de context verborgen zijn — en wat dit betekent voor financieel-specifieke agent-pipelines.
Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.
Voyager, een door GPT-4 aangedreven Minecraft-agent van NVIDIA en Caltech, laat zien dat een persistente code-vaardigheidsbibliotheek echt levenslang leren mogelijk maakt zonder fine-tuning — met de ontdekking van 3,3x meer items dan eerdere state-of-the-art modellen. Dit patroon is direct toepasbaar op lange-termijn automatisering van Beancount-grootboeken, hoewel financiële correctheid staging-lagen vereist die in game-sandboxes nooit nodig zijn.
AutoGen (Wu et al., 2023) introduceert een multi-agent conversatie-framework waarin door LLM ondersteunde agenten berichten uitwisselen om taken te voltooien; een configuratie met twee agenten verhoogt de nauwkeurigheid van de MATH-benchmark van 55% naar 69%, en een toegewijde SafeGuard-agent verbetert de detectie van onveilige code met maximaal 35 F1-punten — bevindingen die direct toepasbaar zijn op het bouwen van veilige, modulaire Beancount-automatiseringspijplijnen.
CodeAct (ICML 2024) vervangt JSON-tool-aanroepen door uitvoerbare Python-code, waardoor het succespercentage van GPT-4-agents met ~20 procentpunten verbetert bij taken met meerdere tools en de interactierondes met 30% worden verminderd — met directe gevolgen voor het bouwen van betrouwbare Beancount-reconciliatie-agents.
CRITIC (ICLR 2024) behaalt een F1-winst van 7,7 op open-domein QA en een toxiciteitsreductie van 79,2% door LLM-revisie te baseren op signalen van externe tools — een 'verifieer-dan-corrigeer'-lus die direct aansluit op de veiligheid van terugschrijven voor financiële Beancount-agents.
ReAct (Yao et al., ICLR 2023) vervlecht chain-of-thought-redeneren met tool-acties in een enkel traject, waarmee het puur CoT op het gebied van feitverificatie en imitatie-leren op belichaamde taken met 34 procentpunten overtreft. Deze analyse behandelt de foutmodi van het artikel — door zoeken veroorzaakte afleiding en opeenstapelende fouten — en wat deze betekenen voor autonome agents die terugschrijven naar Beancount-grootboeken.