AuditCopilot past open-source LLM's (Mistral-8B, Gemma, Llama-3.1) toe op fraudedetectie bij bedrijfsjournaalposten, waarbij het aantal fout-positieven wordt teruggebracht van 942 naar 12 — maar ablatie onthult dat het LLM voornamelijk fungeert als een syntheselaag bovenop Isolation Forest-scores, niet als een onafhankelijke anomaliedetector.
TAT-LLM finetunt LLaMA 2 7B met LoRA op financiële tabel-tekst QA-benchmarks en behaalt 64,60% EM op FinQA — waarmee het de 63,91% van GPT-4 verslaat — door redenering te ontleden in deterministische Extraheer-Redeneer-Voer-uit stappen die rekenkundige fouten elimineren.
Een empirische vergelijking van RAG versus ongecontroleerde fine-tuning bij LLM's met 7 miljard parameters laat zien dat RAG een nauwkeurigheid van 0.875+ behaalt op feiten van na de cutoff, terwijl fine-tuning stagneert op 0.504 — met directe gevolgen voor het ontwerpen van Beancount-agents en systemen die frequente kennisupdates vereisen.
IRCoT verweeft BM25 retrieval met elke stap van een chain-of-thought redeneerlus, waarmee een verbetering van +11.3 in retrieval recall en +7.1 F1 op HotpotQA wordt behaald ten opzichte van eenstaps RAG — en toont aan dat een 3B-model GPT-3 175B kan verslaan als de retrieval-strategie juist is.
FLARE (EMNLP 2023) verbetert standaard RAG door retrieval halverwege de generatie te activeren op basis van drempelwaarden voor token-waarschijnlijkheid, waarmee 51.0 EM wordt behaald op 2WikiMultihopQA tegenover 39.4 voor eenmalige retrieval — maar calibratiefouten in voor instructies getunede chatmodellen beperken de betrouwbaarheid voor productie-financiële agents.
Het artikel van Lewis et al. uit NeurIPS 2020 introduceerde de hybride RAG-architectuur — een BART-large generator gekoppeld aan een via FAISS geïndexeerde retriever over 21 miljoen Wikipedia-fragmenten — waarmee 44,5 EM op Natural Questions werd behaald en de parametrische/niet-parametrische splitsing werd vastgesteld die nu ten grondslag ligt aan de meeste productie-AI-systemen. Dit overzicht behandelt de afwegingen tussen RAG-Sequence vs. RAG-Token, de 'retrieval collapse' foutmodus, en wat verouderde indexen betekenen voor financiële AI die is gebouwd op append-only Beancount-grootboeken.
MultiHiertt (ACL 2022) introduceert 10.440 QA-paren uit echte financiële rapporten met gemiddeld 3,89 hiërarchische tabellen elk; state-of-the-art modellen scoren 38% F1 tegenover 87% voor mensen, met een boete van 15 punten voor vragen over meerdere tabellen — een kwantificering van de retrieval-kloof die financiële AI moet dichten.
ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.
TAT-QA is een benchmark met 16.552 vragen over hybride tabel-plus-tekst contexten uit financiële verslagen die aantoont dat bewijsvoering — niet rekenkunde — het belangrijkste knelpunt is in AI voor de financiële sector; tegen 2024 bereikten gefinetunede 7B LLM's een F1-score van 83%, waarmee het gat met het menselijke plafond van 91% grotendeels werd gedicht.