Doorgaan naar hoofdinhoud

Bean Labs Research Log

FinQA: De benchmark voor het meten van numeriek redeneren door AI in financiële rapporten

FinQA (EMNLP 2021) bouwde 8.281 QA-paren op basis van S&P 500-kwartaalcijfers die meerstaps rekenprogramma's vereisen. Neurale modellen scoorden bij de release 61% tegenover 91% voor menselijke experts; de nauwkeurigheid keldert naar 22% bij programma's met drie of meer stappen. De foutmodi — domeinconstanten, cross-modaliteit grounding, ketenlengte — sluiten direct aan bij de uitdagingen waar Beancount-agents tegenwoordig voor staan.

Latest articles

FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten

FinanceBench evalueert 16 AI-configuraties aan de hand van 10.231 vragen uit echte SEC-filings; shared-vector-store RAG antwoordt slechts in 19% van de gevallen correct, en zelfs GPT-4-Turbo met de oracle-passage bereikt slechts 85% nauwkeurigheid — wat aantoont dat numeriek redeneren, niet retrieval, de beperkende factor is voor enterprise finance AI.

Self-RAG: Adaptief ophalen en zelfkritiek voor LLM's

Self-RAG (ICLR 2024 Oral) traint een taalmodel om te beslissen wanneer informatie moet worden opgehaald en vervolgens de eigen resultaten te beoordelen met behulp van vier reflectie-tokens — met resultaten van 55,8% op PopQA en een FactScore van 80,2 op biografieën, waarmee het ChatGPT op vijf benchmarks overtreft. De analyse behandelt het mechanisme, de ablatieresultaten, beperkingen in reproduceerbaarheid en implicaties voor financiële AI-agents op basis van Beancount-grootboeken.

Voyager: Vaardigheidsbibliotheken als de basis voor levenslang leren van AI-agents

Voyager, een door GPT-4 aangedreven Minecraft-agent van NVIDIA en Caltech, laat zien dat een persistente code-vaardigheidsbibliotheek echt levenslang leren mogelijk maakt zonder fine-tuning — met de ontdekking van 3,3x meer items dan eerdere state-of-the-art modellen. Dit patroon is direct toepasbaar op lange-termijn automatisering van Beancount-grootboeken, hoewel financiële correctheid staging-lagen vereist die in game-sandboxes nooit nodig zijn.

HippoRAG: Neurobiologisch geïnspireerd langetermijngeheugen voor LLM's

HippoRAG (NeurIPS 2024) bouwt een kennisgraaf van OpenIE-triples en past Personalized PageRank toe op het moment van de query. Het bereikt een Recall@5 van 89,1% op 2WikiMultiHopQA vergeleken met 68,2% voor ColBERTv2—met directe implicaties voor het bevragen van complexe financiële grootboeken over meerjarige transactiegeschiedenissen.

AgentBench: LLM's evalueren als agenten — Lessen voor de betrouwbaarheid van AI in de financiële sector

AgentBench (Liu et al., ICLR 2024) benchmarkt 27 LLM's in 8 interactieve omgevingen — GPT-4 scoorde gemiddeld 4,01 tegenover 0,96 voor het beste open-sourcemodel. De drie dominante foutmodi (overschrijding van de taaklimiet bij 67,9% van de fouten in de kennisgraaf, formaatfouten bij 53,3% van de databasefouten, en ongeldige acties) sluiten direct aan bij de risico's van het inzetten van een Beancount write-back-agent op een echt grootboek.

BloombergGPT en de grenzen van domeinspecifieke LLM's in de financiële sector

Bloomberg trainde een LLM met 50 miljard parameters op 569 miljard tokens aan financiële gegevens en versloeg algemene modellen op benchmarks voor sentiment en tabelredenering — waarna GPT-4 dit evenaarde zonder enige financiële pre-training. Wat het experiment van $10 miljoen onthult over de afwegingen bij domein-pre-training, de tokenisatie van getallen en waarom het gebruik van tools betrouwbaarder is dan interne model-logica voor boekhoudagenten.

AutoGen: Multi-Agent Conversatie-frameworks voor Financiële AI

AutoGen (Wu et al., 2023) introduceert een multi-agent conversatie-framework waarin door LLM ondersteunde agenten berichten uitwisselen om taken te voltooien; een configuratie met twee agenten verhoogt de nauwkeurigheid van de MATH-benchmark van 55% naar 69%, en een toegewijde SafeGuard-agent verbetert de detectie van onveilige code met maximaal 35 F1-punten — bevindingen die direct toepasbaar zijn op het bouwen van veilige, modulaire Beancount-automatiseringspijplijnen.