Doorgaan naar hoofdinhoud
Beancount

Alles Over Beancount

65 artikelen
Beancount ledger format, tooling, and ecosystem research

FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein

FinRAGBench-V (EMNLP 2025) is de eerste grootschalige benchmark voor multimodale RAG met visuele citaten in de financiële sector, met meer dan 112.000 documentpagina's en 1.394 door mensen geannoteerde QA-paren. Topmodellen behalen slechts 20–61% recall op blokniveau voor citaten, en multimodale retrieval presteert bijna 50 procentpunten beter dan alleen tekst.

Kunnen LLM-agents CFO's zijn? EnterpriseArena's 132-maanden simulatie onthult een grote kloof

EnterpriseArena onderwerpt 11 LLM's aan een 132-maanden durende CFO-simulatie waarbij overleving, eindwaardering en boekafsluitingspercentages worden bijgehouden. Alleen Qwen3.5-9B overleeft 80% van de runs; GPT-5.4 en DeepSeek-V3.1 halen 0%. Menselijke experts bereiken 100% overleving met een 5x hogere eindwaarde. Het kritieke knelpunt: LLM's slaan in 80% van de gevallen de grootboekreconciliatie over en handelen op basis van verouderde financiële statussen.

JSONSchemaBench: Complexiteit van real-world schema's doorbreekt garanties voor gestructureerde LLM-output

JSONSchemaBench test 9.558 real-world JSON-schema's tegen zes beperkte decoderingsframeworks en ontdekt dat schemacomplexiteit ervoor zorgt dat de dekking instort van 86% bij eenvoudige schema's naar 3% bij complexe, waarbij XGrammar stilletjes 38 niet-conforme outputs genereert en geen enkel framework alle 45 JSON-schema functiecategorieën dekt.

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

FinToolBench koppelt 760 live financiële API-tools aan 295 uitvoerbare queries om LLM-agents te benchmarken op echte financiële taken — waarbij de conservatieve aanroepfrequentie van 22,7% van GPT-4o een hogere antwoordkwaliteit (CSS 0,670) oplevert dan de agressieve 87,1% TIR van Qwen3-8B, terwijl de intentie-mismatch bij alle geteste modellen meer dan 50% bedraagt.

OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector

OmniEval (EMNLP 2025) benchmarkt RAG-systemen over 5 taaktypen × 16 financiële onderwerpen met behulp van 11,4k automatisch gegenereerde testcases. De beste systemen behalen slechts 36% numerieke nauwkeurigheid — concreet bewijs dat RAG-pipelines validatielagen nodig hebben voordat ze naar gestructureerde financiële grootboeken schrijven.

Gevonden in het midden: Kalibreren van positionele aandachts-bias verbetert RAG met lange context

Een trainingsvrije kalibratie tijdens de inferentie-tijd trekt de positionele bias af van de LLM-aandachtsgewichten, waardoor tot 15 procentpunten aan RAG-nauwkeurigheid wordt hersteld wanneer opgehaalde documenten midden in de context verborgen zijn — en wat dit betekent voor financieel-specifieke agent-pipelines.