Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden

AuditCopilot past open-source LLM's (Mistral-8B, Gemma, Llama-3.1) toe op fraudedetectie bij bedrijfsjournaalposten, waarbij het aantal fout-positieven wordt teruggebracht van 942 naar 12 — maar ablatie onthult dat het LLM voornamelijk fungeert als een syntheselaag bovenop Isolation Forest-scores, niet als een onafhankelijke anomaliedetector.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: Gefinetunede LLaMA 2 voor discreet redeneren over financiële tabellen en tekst

TAT-LLM finetunt LLaMA 2 7B met LoRA op financiële tabel-tekst QA-benchmarks en behaalt 64,60% EM op FinQA — waarmee het de 63,91% van GPT-4 verslaat — door redenering te ontleden in deterministische Extraheer-Redeneer-Voer-uit stappen die rekenkundige fouten elimineren.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's

Een empirische vergelijking van RAG versus ongecontroleerde fine-tuning bij LLM's met 7 miljard parameters laat zien dat RAG een nauwkeurigheid van 0.875+ behaalt op feiten van na de cutoff, terwijl fine-tuning stagneert op 0.504 — met directe gevolgen voor het ontwerpen van Beancount-agents en systemen die frequente kennisupdates vereisen.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: Interleaving van Retrieval met Chain-of-Thought voor Meerstaps QA

IRCoT verweeft BM25 retrieval met elke stap van een chain-of-thought redeneerlus, waarmee een verbetering van +11.3 in retrieval recall en +7.1 F1 op HotpotQA wordt behaald ten opzichte van eenstaps RAG — en toont aan dat een 3B-model GPT-3 175B kan verslaan als de retrieval-strategie juist is.

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE: Actieve Retrieval Augmented Generation

FLARE (EMNLP 2023) verbetert standaard RAG door retrieval halverwege de generatie te activeren op basis van drempelwaarden voor token-waarschijnlijkheid, waarmee 51.0 EM wordt behaald op 2WikiMultihopQA tegenover 39.4 voor eenmalige retrieval — maar calibratiefouten in voor instructies getunede chatmodellen beperken de betrouwbaarheid voor productie-financiële agents.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

Retrieval-Augmented Generation voor Kennisintensieve NLP-taken

Het artikel van Lewis et al. uit NeurIPS 2020 introduceerde de hybride RAG-architectuur — een BART-large generator gekoppeld aan een via FAISS geïndexeerde retriever over 21 miljoen Wikipedia-fragmenten — waarmee 44,5 EM op Natural Questions werd behaald en de parametrische/niet-parametrische splitsing werd vastgesteld die nu ten grondslag ligt aan de meeste productie-AI-systemen. Dit overzicht behandelt de afwegingen tussen RAG-Sequence vs. RAG-Token, de 'retrieval collapse' foutmodus, en wat verouderde indexen betekenen voor financiële AI die is gebouwd op append-only Beancount-grootboeken.

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen

MultiHiertt (ACL 2022) introduceert 10.440 QA-paren uit echte financiële rapporten met gemiddeld 3,89 hiërarchische tabellen elk; state-of-the-art modellen scoren 38% F1 tegenover 87% voor mensen, met een boete van 15 punten voor vragen over meerdere tabellen — een kwantificering van de retrieval-kloof die financiële AI moet dichten.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen

TAT-QA is een benchmark met 16.552 vragen over hybride tabel-plus-tekst contexten uit financiële verslagen die aantoont dat bewijsvoering — niet rekenkunde — het belangrijkste knelpunt is in AI voor de financiële sector; tegen 2024 bereikten gefinetunede 7B LLM's een F1-score van 83%, waarmee het gat met het menselijke plafond van 91% grotendeels werd gedicht.

LLM's zijn niet nuttig voor tijdreeksvoorspelling: Wat NeurIPS 2024 betekent voor Finance AI

Latest articles

AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden

TAT-LLM: Gefinetunede LLaMA 2 voor discreet redeneren over financiële tabellen en tekst

Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's

IRCoT: Interleaving van Retrieval met Chain-of-Thought voor Meerstaps QA

FLARE: Actieve Retrieval Augmented Generation

Retrieval-Augmented Generation voor Kennisintensieve NLP-taken

MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch