Bean Labs Research Log

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten

FinanceBench evalueert 16 AI-configuraties aan de hand van 10.231 vragen uit echte SEC-filings; shared-vector-store RAG antwoordt slechts in 19% van de gevallen correct, en zelfs GPT-4-Turbo met de oracle-passage bereikt slechts 85% nauwkeurigheid — wat aantoont dat numeriek redeneren, niet retrieval, de beperkende factor is voor enterprise finance AI.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: Broze Prompt Engineering Vervangen door Gecompileerde LLM-Pipelines

DSPy vervangt handmatige prompt-strings door declaratieve signaturen en een metriek-gestuurde compiler—waardoor Llama2-13b stijgt van 9,4% naar 46,9% op GSM8K wiskundig redeneren en een meer onderhoudbaar pad biedt voor AI-pipelines in de financiële sector.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — Redeneren, Handelen en Plannen in Eén Framework

LATS (Language Agent Tree Search, ICML 2024) verenigt ReAct, Tree of Thoughts en Reflexion in één MCTS-framework, en behaalt een pass@1 van 92,7% op HumanEval met GPT-4. Voor Beancount-grootboeken met Git-beheer wordt de vereiste voor status-reversie, die LATS in productieomgevingen beperkt, triviaal vervuld.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Adaptief ophalen en zelfkritiek voor LLM's

Self-RAG (ICLR 2024 Oral) traint een taalmodel om te beslissen wanneer informatie moet worden opgehaald en vervolgens de eigen resultaten te beoordelen met behulp van vier reflectie-tokens — met resultaten van 55,8% op PopQA en een FactScore van 80,2 op biografieën, waarmee het ChatGPT op vijf benchmarks overtreft. De analyse behandelt het mechanisme, de ablatieresultaten, beperkingen in reproduceerbaarheid en implicaties voor financiële AI-agents op basis van Beancount-grootboeken.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Vaardigheidsbibliotheken als de basis voor levenslang leren van AI-agents

Voyager, een door GPT-4 aangedreven Minecraft-agent van NVIDIA en Caltech, laat zien dat een persistente code-vaardigheidsbibliotheek echt levenslang leren mogelijk maakt zonder fine-tuning — met de ontdekking van 3,3x meer items dan eerdere state-of-the-art modellen. Dit patroon is direct toepasbaar op lange-termijn automatisering van Beancount-grootboeken, hoewel financiële correctheid staging-lagen vereist die in game-sandboxes nooit nodig zijn.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: Neurobiologisch geïnspireerd langetermijngeheugen voor LLM's

HippoRAG (NeurIPS 2024) bouwt een kennisgraaf van OpenIE-triples en past Personalized PageRank toe op het moment van de query. Het bereikt een Recall@5 van 89,1% op 2WikiMultiHopQA vergeleken met 68,2% voor ColBERTv2—met directe implicaties voor het bevragen van complexe financiële grootboeken over meerjarige transactiegeschiedenissen.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: LLM's evalueren als agenten — Lessen voor de betrouwbaarheid van AI in de financiële sector

AgentBench (Liu et al., ICLR 2024) benchmarkt 27 LLM's in 8 interactieve omgevingen — GPT-4 scoorde gemiddeld 4,01 tegenover 0,96 voor het beste open-sourcemodel. De drie dominante foutmodi (overschrijding van de taaklimiet bij 67,9% van de fouten in de kennisgraaf, formaatfouten bij 53,3% van de databasefouten, en ongeldige acties) sluiten direct aan bij de risico's van het inzetten van een Beancount write-back-agent op een echt grootboek.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT en de grenzen van domeinspecifieke LLM's in de financiële sector

Bloomberg trainde een LLM met 50 miljard parameters op 569 miljard tokens aan financiële gegevens en versloeg algemene modellen op benchmarks voor sentiment en tabelredenering — waarna GPT-4 dit evenaarde zonder enige financiële pre-training. Wat het experiment van $10 miljoen onthult over de afwegingen bij domein-pre-training, de tokenisatie van getallen en waarom het gebruik van tools betrouwbaarder is dan interne model-logica voor boekhoudagenten.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Multi-Agent Conversatie-frameworks voor Financiële AI

AutoGen (Wu et al., 2023) introduceert een multi-agent conversatie-framework waarin door LLM ondersteunde agenten berichten uitwisselen om taken te voltooien; een configuratie met twee agenten verhoogt de nauwkeurigheid van de MATH-benchmark van 55% naar 69%, en een toegewijde SafeGuard-agent verbetert de detectie van onveilige code met maximaal 35 F1-punten — bevindingen die direct toepasbaar zijn op het bouwen van veilige, modulaire Beancount-automatiseringspijplijnen.

FinQA: De benchmark voor het meten van numeriek redeneren door AI in financiële rapporten

Latest articles

FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten

DSPy: Broze Prompt Engineering Vervangen door Gecompileerde LLM-Pipelines

LATS: Language Agent Tree Search — Redeneren, Handelen en Plannen in Eén Framework

Self-RAG: Adaptief ophalen en zelfkritiek voor LLM's

Voyager: Vaardigheidsbibliotheken als de basis voor levenslang leren van AI-agents

HippoRAG: Neurobiologisch geïnspireerd langetermijngeheugen voor LLM's

AgentBench: LLM's evalueren als agenten — Lessen voor de betrouwbaarheid van AI in de financiële sector

BloombergGPT en de grenzen van domeinspecifieke LLM's in de financiële sector

AutoGen: Multi-Agent Conversatie-frameworks voor Financiële AI

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch