40 berichten getagd met "Data Science"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein

FinRAGBench-V (EMNLP 2025) is de eerste grootschalige benchmark voor multimodale RAG met visuele citaten in de financiële sector, met meer dan 112.000 documentpagina's en 1.394 door mensen geannoteerde QA-paren. Topmodellen behalen slechts 20–61% recall op blokniveau voor citaten, en multimodale retrieval presteert bijna 50 procentpunten beter dan alleen tekst.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk

WildToolBench (ICLR 2026) evalueert 57 LLM's op 1.024 taken gebaseerd op echt gebruikersgedrag — geen enkel model overschrijdt 15% sessienauwkeurigheid, waarbij compositionele orkestratie, verborgen intentie en instructie-overgangen de drie meest kritieke faalmodi zijn.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont

Een systematisch overzicht van LLM-betrouwbaarheidsschatting en kalibratiemethoden — white-box logit-benaderingen, op consistentie gebaseerde SelfCheckGPT en semantische entropie — onthult dat geverbaliseerde betrouwbaarheidsscores van GPT-4 slechts ~62,7% AUROC behalen, nauwelijks boven kansniveau, met directe gevolgen voor de inzet van onzekerheidsbewuste agents in financiën en boekhouding.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

FinToolBench koppelt 760 live financiële API-tools aan 295 uitvoerbare queries om LLM-agents te benchmarken op echte financiële taken — waarbij de conservatieve aanroepfrequentie van 22,7% van GPT-4o een hogere antwoordkwaliteit (CSS 0,670) oplevert dan de agressieve 87,1% TIR van Qwen3-8B, terwijl de intentie-mismatch bij alle geteste modellen meer dan 50% bedraagt.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector

OmniEval (EMNLP 2025) benchmarkt RAG-systemen over 5 taaktypen × 16 financiële onderwerpen met behulp van 11,4k automatisch gegenereerde testcases. De beste systemen behalen slechts 36% numerieke nauwkeurigheid — concreet bewijs dat RAG-pipelines validatielagen nodig hebben voordat ze naar gestructureerde financiële grootboeken schrijven.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

LLM Anomaly Detection Survey (NAACL 2025): Sterke Taxonomie, Ontbrekende Tabeldekking

Een kritische lezing van het NAACL 2025-overzicht van Xu en Ding over LLM-gebaseerde anomalie- en OOD-detectie: de detectie-vs-generatie taxonomie houdt stand, maar de bijna volledige afwezigheid van tabelvormige dekking betekent dat financiële AI-beoefenaars zelf inzichten uit visiemodellen moeten synthetiseren.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Gevonden in het midden: Kalibreren van positionele aandachts-bias verbetert RAG met lange context

Een trainingsvrije kalibratie tijdens de inferentie-tijd trekt de positionele bias af van de LLM-aandachtsgewichten, waardoor tot 15 procentpunten aan RAG-nauwkeurigheid wordt hersteld wanneer opgehaalde documenten midden in de context verborgen zijn — en wat dit betekent voor financieel-specifieke agent-pipelines.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG

FinDER benchmarkt RAG op 5.703 echte vragen van hedgefondsanalisten tegenover S&P 500 10-K-deponeringen; E5-Mistral behaalt slechts 25,95% context recall, en vragen met veel afkortingen kosten 8,2 precisiepunten — het bewijs dat query-normalisatie, en niet betere embeddings, de eerste oplossing is voor financiële AI-pijplijnen.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.

Alles Over Data Science

FinRAGBench-V: Multimodale RAG met visuele citaten in het financiële domein

WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk

LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

OmniEval: Omnidirectionele RAG-evaluatiebenchmark voor de financiële sector

LLM Anomaly Detection Survey (NAACL 2025): Sterke Taxonomie, Ontbrekende Tabeldekking

Gevonden in het midden: Kalibreren van positionele aandachts-bias verbetert RAG met lange context

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

FinDER: Echte vragen van analisten onthullen een recall-kloof van 74% in financiële RAG

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch