Mike Thrift

Mike Thrift

Marketing Manager

Alle auteurs bekijken

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering
·mike

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.

ai
llm
automation
security
+3
Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden
·mike

Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden

Een diepgaande analyse van het ICML 2024 multi-agent debat-artikel van Du et al. — dat een winst van 14,8 punten in nauwkeurigheid bij rekenen rapporteert — samen met weerleggingen uit 2025 die aantonen dat enkelvoudige agents met een gelijk budget de prestaties van het debat evenaren, en een analyse van waarom collectieve waanbeelden (65% van de debatmislukkingen) specifieke risico's vormen voor AI-ondersteunde grootboek-commits.

ai
llm
machine-learning
automation
+2
LLM's zijn niet nuttig voor tijdreeksvoorspelling: Wat NeurIPS 2024 betekent voor Finance AI
·mike

LLM's zijn niet nuttig voor tijdreeksvoorspelling: Wat NeurIPS 2024 betekent voor Finance AI

Een NeurIPS 2024 Spotlight-paper analyseert drie op LLM gebaseerde methoden voor tijdreeksvoorspelling — OneFitsAll, Time-LLM en CALF — en ontdekt dat het verwijderen van het taalmodel de nauwkeurigheid in de meeste gevallen verbetert, met een tot 1.383× snellere training. Voor finance AI-toepassingen zoals Beancount-saldo voorspelling, verslaan lichtgewicht, speciaal gebouwde modellen consequent hergebruikte LLM's.

ai
machine-learning
forecasting
data-science
+3
AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden
·mike

AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden

AuditCopilot past open-source LLM's (Mistral-8B, Gemma, Llama-3.1) toe op fraudedetectie bij bedrijfsjournaalposten, waarbij het aantal fout-positieven wordt teruggebracht van 942 naar 12 — maar ablatie onthult dat het LLM voornamelijk fungeert als een syntheselaag bovenop Isolation Forest-scores, niet als een onafhankelijke anomaliedetector.

fraud-detection
llm
double-entry
journal-entries
+4
TAT-LLM: Gefinetunede LLaMA 2 voor discreet redeneren over financiële tabellen en tekst
·mike

TAT-LLM: Gefinetunede LLaMA 2 voor discreet redeneren over financiële tabellen en tekst

TAT-LLM finetunt LLaMA 2 7B met LoRA op financiële tabel-tekst QA-benchmarks en behaalt 64,60% EM op FinQA — waarmee het de 63,91% van GPT-4 verslaat — door redenering te ontleden in deterministische Extraheer-Redeneer-Voer-uit stappen die rekenkundige fouten elimineren.

llm
ai
machine-learning
finance
+3
Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's
·mike

Fine-Tuning vs. RAG: Waarom Retrieval wint bij het toevoegen van nieuwe kennis aan LLM's

Een empirische vergelijking van RAG versus ongecontroleerde fine-tuning bij LLM's met 7 miljard parameters laat zien dat RAG een nauwkeurigheid van 0.875+ behaalt op feiten van na de cutoff, terwijl fine-tuning stagneert op 0.504 — met directe gevolgen voor het ontwerpen van Beancount-agents en systemen die frequente kennisupdates vereisen.

ai
llm
machine-learning
data-science
+3
IRCoT: Interleaving van Retrieval met Chain-of-Thought voor Meerstaps QA
·mike

IRCoT: Interleaving van Retrieval met Chain-of-Thought voor Meerstaps QA

IRCoT verweeft BM25 retrieval met elke stap van een chain-of-thought redeneerlus, waarmee een verbetering van +11.3 in retrieval recall en +7.1 F1 op HotpotQA wordt behaald ten opzichte van eenstaps RAG — en toont aan dat een 3B-model GPT-3 175B kan verslaan als de retrieval-strategie juist is.

ai
llm
machine-learning
automation
+3
FLARE: Actieve Retrieval Augmented Generation
·mike

FLARE: Actieve Retrieval Augmented Generation

FLARE (EMNLP 2023) verbetert standaard RAG door retrieval halverwege de generatie te activeren op basis van drempelwaarden voor token-waarschijnlijkheid, waarmee 51.0 EM wordt behaald op 2WikiMultihopQA tegenover 39.4 voor eenmalige retrieval — maar calibratiefouten in voor instructies getunede chatmodellen beperken de betrouwbaarheid voor productie-financiële agents.

ai
machine-learning
llm
retrieval-augmented-generation
+3
Retrieval-Augmented Generation voor Kennisintensieve NLP-taken
·mike

Retrieval-Augmented Generation voor Kennisintensieve NLP-taken

Het artikel van Lewis et al. uit NeurIPS 2020 introduceerde de hybride RAG-architectuur — een BART-large generator gekoppeld aan een via FAISS geïndexeerde retriever over 21 miljoen Wikipedia-fragmenten — waarmee 44,5 EM op Natural Questions werd behaald en de parametrische/niet-parametrische splitsing werd vastgesteld die nu ten grondslag ligt aan de meeste productie-AI-systemen. Dit overzicht behandelt de afwegingen tussen RAG-Sequence vs. RAG-Token, de 'retrieval collapse' foutmodus, en wat verouderde indexen betekenen voor financiële AI die is gebouwd op append-only Beancount-grootboeken.

ai
machine-learning
llm
data-science
+2
MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen
·mike

MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen

MultiHiertt (ACL 2022) introduceert 10.440 QA-paren uit echte financiële rapporten met gemiddeld 3,89 hiërarchische tabellen elk; state-of-the-art modellen scoren 38% F1 tegenover 87% voor mensen, met een boete van 15 punten voor vragen over meerdere tabellen — een kwantificering van de retrieval-kloof die financiële AI moet dichten.

ai
machine-learning
llm
financial-reporting
+3
ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts
·mike

ConvFinQA: Multi-turn financiële QA en de kloof van 21 punten tussen modellen en menselijke experts

ConvFinQA (EMNLP 2022) breidt FinQA uit naar multi-turn gesprekken over S&P 500-winstrapporten. Hieruit blijkt dat het best gefinetunede model een uitvoeringsnauwkeurigheid van 68,9% behaalt tegenover 89,4% voor menselijke experts — en dit daalt naar 52,4% bij hybride gesprekken over meerdere aspecten waarbij modellen numerieke context over verschillende financiële onderwerpen moeten meenemen.

ai
llm
machine-learning
finance
+3
TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen
·mike

TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen

TAT-QA is een benchmark met 16.552 vragen over hybride tabel-plus-tekst contexten uit financiële verslagen die aantoont dat bewijsvoering — niet rekenkunde — het belangrijkste knelpunt is in AI voor de financiële sector; tegen 2024 bereikten gefinetunede 7B LLM's een F1-score van 83%, waarmee het gat met het menselijke plafond van 91% grotendeels werd gedicht.

ai
machine-learning
llm
finance
+2
49–60 van 87 berichten tonen