35 berichten getagd met "Finance"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein

FinRAGBench-V (EMNLP 2025) is de eerste grootschalige benchmark voor multimodale RAG met visuele citaten in de financiële sector, met meer dan 112.000 documentpagina's en 1.394 door mensen geannoteerde QA-paren. Topmodellen behalen slechts 20–61% recall op blokniveau voor citaten, en multimodale retrieval presteert bijna 50 procentpunten beter dan alleen tekst.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont

Een systematisch overzicht van LLM-betrouwbaarheidsschatting en kalibratiemethoden — white-box logit-benaderingen, op consistentie gebaseerde SelfCheckGPT en semantische entropie — onthult dat geverbaliseerde betrouwbaarheidsscores van GPT-4 slechts ~62,7% AUROC behalen, nauwelijks boven kansniveau, met directe gevolgen voor de inzet van onzekerheidsbewuste agents in financiën en boekhouding.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Evaluatie op trajectniveau van LLM tool-aanroepen voor financiële taken

FinTrace benchmarkt 13 LLM's op 800 door experts geannoteerde trajecten voor financiële taken via 9 statistieken. De resultaten tonen aan dat frontier-modellen sterke tool-selectie behalen (F1 ~0,9), maar slechts 3,23/5 scoren op informatiebenutting — de stap waarin agents redeneren over de resultaten van tools.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector

OmniEval (EMNLP 2025) benchmarkt RAG-systemen over 5 taaktypen × 16 financiële onderwerpen met behulp van 11,4k automatisch gegenereerde testcases. De beste systemen behalen slechts 36% numerieke nauwkeurigheid — concreet bewijs dat RAG-pipelines validatielagen nodig hebben voordat ze naar gestructureerde financiële grootboeken schrijven.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG

FinDER benchmarkt RAG op 5.703 echte vragen van hedgefondsanalisten tegenover S&P 500 10-K-deponeringen; E5-Mistral behaalt slechts 25,95% context recall, en vragen met veel afkortingen kosten 8,2 precisiepunten — het bewijs dat query-normalisatie, en niet betere embeddings, de eerste oplossing is voor financiële AI-pijplijnen.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: LLM's finetunen voor tabelgebaseerde anomaliedetectie in financiële gegevens

AnoLLM (ICLR 2025) herformuleert tabelgebaseerde anomaliedetectie als LLM-dichtheidsschatting — finetuning op normale rijen en scoren via negatieve log-likelihood. Het presteert beter dan klassieke methoden op fraudedatasets van gemengde types, maar biedt geen voordeel bij puur numerieke gegevens, met reële gevolgen voor het detecteren van anomalieën in Beancount-grootboekvermeldingen.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten

DocFinQA vervangt de gecureerde passages van 700 woorden in FinQA door volledige SEC-documenten van 123.000 woorden, wat een 175x toename in context blootlegt die de nauwkeurigheid van GPT-4 op lange documenten bijna halveert. Retrieval-pipelines slagen er in 45% van de gevallen niet in om het juiste fragment te vinden bij HR@3 — en modellen met een lange context zijn geen vervanging.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken

TheAgentCompany test 175 realistische werktaken binnen een gesimuleerd intranet met GitLab, OwnCloud en RocketChat. Het beste model (Gemini-2.5-Pro) voltooit slechts 30% van de taken voor $4 per stuk, wat aantoont dat autonome agents nog verre van inzetbaar zijn voor boekhoudkundige en financiële workflows.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen

InvestorBench (ACL 2025) test 13 LLM-backbones op gebackteste aandelen-, crypto- en ETF-handel met behulp van cumulatief rendement en Sharpe-ratio — niet op QA-nauwkeurigheid. Qwen2.5-72B voert de aandelenlijst aan met 46,15% CR; voor financiën geoptimaliseerde modellen werken averechts bij aandelen. Modelgrootte voorspelt prestaties betrouwbaarder dan domeinspecifieke fine-tuning.

Alles Over Finance

FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein

LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont

FinTrace: Evaluatie op trajectniveau van LLM tool-aanroepen voor financiële taken

OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector

FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

AnoLLM: LLM's finetunen voor tabelgebaseerde anomaliedetectie in financiële gegevens

DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten

TheAgentCompany: Benchmarking van LLM-agents voor realistische bedrijfstaken

InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch