Mike Thrift
Marketing Manager
GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering
GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.
Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden
Een diepgaande analyse van het ICML 2024 multi-agent debat-artikel van Du et al. — dat een winst van 14,8 punten in nauwkeurigheid bij rekenen rapporteert — samen met weerleggingen uit 2025 die aantonen dat enkelvoudige agents met een gelijk budget de prestaties van het debat evenaren, en een analyse van waarom collectieve waanbeelden (65% van de debatmislukkingen) specifieke risico's vormen voor AI-ondersteunde grootboek-commits.
LLM's zijn niet nuttig voor tijdreeksvoorspelling: Wat NeurIPS 2024 betekent voor Finance AI
Een NeurIPS 2024 Spotlight-paper analyseert drie op LLM gebaseerde methoden voor tijdreeksvoorspelling — OneFitsAll, Time-LLM en CALF — en ontdekt dat het verwijderen van het taalmodel de nauwkeurigheid in de meeste gevallen verbetert, met een tot 1.383× snellere training. Voor finance AI-toepassingen zoals Beancount-saldo voorspelling, verslaan lichtgewicht, speciaal gebouwde modellen consequent hergebruikte LLM's.
AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden
AuditCopilot past open-source LLM's (Mistral-8B, Gemma, Llama-3.1) toe op fraudedetectie bij bedrijfsjournaalposten, waarbij het aantal fout-positieven wordt teruggebracht van 942 naar 12 — maar ablatie onthult dat het LLM voornamelijk fungeert als een syntheselaag bovenop Isolation Forest-scores, niet als een onafhankelijke anomaliedetector.
TAT-LLM: Gefinetunede LLaMA 2 voor discreet redeneren over financiële tabellen en tekst
TAT-LLM finetunt LLaMA 2 7B met LoRA op financiële tabel-tekst QA-benchmarks en behaalt 64,60% EM op FinQA — waarmee het de 63,91% van GPT-4 verslaat — door redenering te ontleden in deterministische Extraheer-Redeneer-Voer-uit stappen die rekenkundige fouten elimineren.
Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's
Een empirische vergelijking van RAG versus ongecontroleerde fine-tuning bij LLM's met 7 miljard parameters laat zien dat RAG een nauwkeurigheid van 0.875+ behaalt op feiten van na de cutoff, terwijl fine-tuning stagneert op 0.504 — met directe gevolgen voor het ontwerpen van Beancount-agents en systemen die frequente kennisupdates vereisen.
IRCoT: Interleaving van Retrieval met Chain-of-Thought voor Meerstaps QA
IRCoT verweeft BM25 retrieval met elke stap van een chain-of-thought redeneerlus, waarmee een verbetering van +11.3 in retrieval recall en +7.1 F1 op HotpotQA wordt behaald ten opzichte van eenstaps RAG — en toont aan dat een 3B-model GPT-3 175B kan verslaan als de retrieval-strategie juist is.
FLARE: Actieve Retrieval Augmented Generation
FLARE (EMNLP 2023) verbetert standaard RAG door retrieval halverwege de generatie te activeren op basis van drempelwaarden voor token-waarschijnlijkheid, waarmee 51.0 EM wordt behaald op 2WikiMultihopQA tegenover 39.4 voor eenmalige retrieval — maar calibratiefouten in voor instructies getunede chatmodellen beperken de betrouwbaarheid voor productie-financiële agents.
Retrieval-Augmented Generation voor Kennisintensieve NLP-taken
Het artikel van Lewis et al. uit NeurIPS 2020 introduceerde de hybride RAG-architectuur — een BART-large generator gekoppeld aan een via FAISS geïndexeerde retriever over 21 miljoen Wikipedia-fragmenten — waarmee 44,5 EM op Natural Questions werd behaald en de parametrische/niet-parametrische splitsing werd vastgesteld die nu ten grondslag ligt aan de meeste productie-AI-systemen. Dit overzicht behandelt de afwegingen tussen RAG-Sequence vs. RAG-Token, de 'retrieval collapse' foutmodus, en wat verouderde indexen betekenen voor financiële AI die is gebouwd op append-only Beancount-grootboeken.
MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen
MultiHiertt (ACL 2022) introduceert 10.440 QA-paren uit echte financiële rapporten met gemiddeld 3,89 hiërarchische tabellen elk; state-of-the-art modellen scoren 38% F1 tegenover 87% voor mensen, met een boete van 15 punten voor vragen over meerdere tabellen — een kwantificering van de retrieval-kloof die financiële AI moet dichten.
ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts
ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.
TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen
TAT-QA is een benchmark met 16.552 vragen over hybride tabel-plus-tekst contexten uit financiële verslagen die aantoont dat bewijsvoering — niet rekenkunde — het belangrijkste knelpunt is in AI voor de financiële sector; tegen 2024 bereikten gefinetunede 7B LLM's een F1-score van 83%, waarmee het gat met het menselijke plafond van 91% grotendeels werd gedicht.