8 berichten getagd met "Analytics"

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

LLM Anomaly Detection Survey (NAACL 2025): Sterke Taxonomie, Ontbrekende Tabeldekking

Een kritische lezing van het NAACL 2025-overzicht van Xu en Ding over LLM-gebaseerde anomalie- en OOD-detectie: de detectie-vs-generatie taxonomie houdt stand, maar de bijna volledige afwezigheid van tabelvormige dekking betekent dat financiële AI-beoefenaars zelf inzichten uit visiemodellen moeten synthetiseren.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

Fin-RATE benchmarkt 17 LLM's op 7.500 door experts samengestelde QA-paren uit 2.472 SEC-indieningen, wat een nauwkeurigheidsinstorting van 18,60% onthult bij longitudinale tracking en een daling van 54 punten voor het financieel gespecialiseerde Fin-R1 bij taken over meerdere entiteiten — waarbij de retrieval-pijplijn, en niet het basismodel, de beperkende factor is.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

Het TACL 2024-artikel van Liu et al. toont aan dat LLM's tot 20 punten slechter presteren op informatie die in het midden van lange contexten is begraven — een U-vormige degradatie die elk getest model beïnvloedt, inclusief Claude-1.3-100K — met concrete gevolgen voor de manier waarop RAG-pipelines opgehaalde fragmenten moeten ordenen in financiële en boekhoudkundige toepassingen.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie

AD-LLM benchmarkt GPT-4o en Llama 3.1 8B over drie rollen voor anomaliedetectie — zero-shot detector, data-augmenter en modelselector — op vijf NLP-datasets; GPT-4o bereikt een AUROC van 0,93–0,99 zero-shot, maar op LLM gebaseerde modelselectie blijft onbetrouwbaar, met directe gevolgen voor AI in financiële audits.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: De betrouwbaarheid van AI-agents meten in praktijkgerichte toolgebruik-domeinen

τ-bench laat zien dat top-LLM's zoals Claude 3.5 Sonnet zakken van een pass@1 van 0,692 naar een pass@4 van 0,462 in retail-klantenservicetaken — een consistentie-vallei met directe gevolgen voor elke write-back agent die op een Beancount-grootboek werkt.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten

FinanceBench evalueert 16 AI-configuraties aan de hand van 10.231 vragen uit echte SEC-filings; shared-vector-store RAG antwoordt slechts in 19% van de gevallen correct, en zelfs GPT-4-Turbo met de oracle-passage bereikt slechts 85% nauwkeurigheid — wat aantoont dat numeriek redeneren, niet retrieval, de beperkende factor is voor enterprise finance AI.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

Zelfconsistentie vervangt 'greedy' chain-of-thought decodering door een meerderheidsstemming over N gesamplede redeneerpaden — wat de GPT-3 nauwkeurigheid op GSM8K met 17,9 procentpunten verhoogt zonder enige fine-tuning — en is direct toepasbaar op financiële berekeningen in meerdere stappen waarbij een enkele LLM-decodering onbetrouwbaar is.

Alles Over Analytics

LLM Anomaly Detection Survey (NAACL 2025): Sterke Taxonomie, Ontbrekende Tabeldekking

Fin-RATE: Hoe LLM's falen bij financiële analyse over verschillende perioden en entiteiten

Lost in the Middle: Positiebias in LLM's en de impact op Finance AI

AD-LLM Benchmark: GPT-4o behaalt 0,93+ AUROC Zero-Shot voor tekstuele anomaliedetectie

τ-bench: De betrouwbaarheid van AI-agents meten in praktijkgerichte toolgebruik-domeinen

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

FinanceBench: Waarom Vector-Store RAG faalt bij echte financiële documenten

Zelfconsistentie: Majority-Vote Sampling Verhoogt de Nauwkeurigheid van Chain-of-Thought

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch