Mike Thrift

Mike Thrift

Marketing Manager

Alle auteurs bekijken

BIRD-benchmark: De kloof met echte databases in LLM Text-to-SQL
·mike

BIRD-benchmark: De kloof met echte databases in LLM Text-to-SQL

De BIRD-benchmark (NeurIPS 2023) test LLM's op 95 echte databases — GPT-4 bereikt slechts 54,89% uitvoeringsnauwkeurigheid met domeinhints en 34,88% zonder, een kloof van 20 punten die direct bepaalt wat een BQL-interface in natuurlijke taal voor Beancount zou moeten oplossen.

beancount
ai
llm
database
+3
Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP
·mike

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

Onderzoekers van CMU en NC State stellen het gebruik voor van System-Theoretic Process Analysis (STPA) en een voor capaciteiten uitgebreid Model Context Protocol om formele veiligheidsspecificaties af te leiden voor het toolgebruik door LLM-agenten, waarbij Alloy-gebaseerde verificatie de afwezigheid van onveilige stromen aantoont in een casestudy over agendaplanning.

ai
llm
security
automation
+3
GraphRAG: Van Lokale naar Globale Query-Gerichte Samenvatting
·mike

GraphRAG: Van Lokale naar Globale Query-Gerichte Samenvatting

Microsofts GraphRAG bouwt een door Leiden gepartitioneerde entiteitsgraaf over een tekstcorpus en berekent vooraf community-samenvattingen om globale zingevingsvragen te beantwoorden die standaard vector-RAG niet aankan — maar een bias-audit uit 2025 laat zien dat de winstpercentages van 72–83% instorten na correctie voor positie- en lengte-artefacten in LLM-als-beoordelaar evaluaties.

ai
llm
machine-learning
beancount
+3
FinAuditing: LLM's scoren onder de 14% op echte SEC XBRL-audittaken
·mike

FinAuditing: LLM's scoren onder de 14% op echte SEC XBRL-audittaken

FinAuditing test 13 LLM's zero-shot op 1.102 echte SEC XBRL-indieningen; de hoogste scores zijn 13,86% op financiële wiskundige verificatie en 12,42% op concept-retrieval—resultaten die direct de grenzen aangeven van wat AI-boekhoudtools betrouwbaar kunnen automatiseren zonder externe hulpmiddelen.

llm
ai
financial-reporting
machine-learning
+2
InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen
·mike

InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen

InvestorBench (ACL 2025) test 13 LLM-backbones op gebackteste aandelen-, crypto- en ETF-handel met behulp van cumulatief rendement en Sharpe-ratio — niet op QA-nauwkeurigheid. Qwen2.5-72B voert de aandelenlijst aan met 46,15% CR; voor financiën geoptimaliseerde modellen werken averechts bij aandelen. Modelgrootte voorspelt prestaties betrouwbaarder dan domeinspecifieke fine-tuning.

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten
·mike

StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten

StructRAG (ICLR 2025) stuurt elke zoekopdracht naar een taakgeschikt structuurtype — tabel, graaf, catalogus, algoritme of chunk — alvorens te redeneren. Het scoort 28 punten hoger dan GraphRAG op de Loong-benchmark terwijl het 22× sneller draait, waarbij de met DPO getrainde router alleen al verantwoordelijk is voor een nauwkeurigheidswinst van 15 punten.

ai
llm
machine-learning
beancount
+3
Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens
·mike

Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens

Een Stanford-preprint uit 2026 egaliseert de budgetten voor denk-tokens over vijf multi-agent-architecturen en stelt vast dat single-agent LLM's multi-agent-systemen evenaren of verslaan bij multi-hop redeneren — met een theoretische onderbouwing in de Dataverwerkingsongelijkheid en implicaties voor het ontwerp van financiële AI-agents.

ai
llm
machine-learning
automation
+3
M3MAD-Bench: Zijn debatten tussen meerdere agenten echt effectief over verschillende domeinen en modaliteiten?
·mike

M3MAD-Bench: Zijn debatten tussen meerdere agenten echt effectief over verschillende domeinen en modaliteiten?

M3MAD-Bench onderwerpt debatten tussen meerdere agenten aan een stresstest over 9 modellen, 5 domeinen en vision-language-omgevingen. De bevindingen tonen aan dat collectieve waan de oorzaak is van 65% van de fouten, dat tegenstrijdige debatten de nauwkeurigheid met wel 12,8% verlagen en dat zelfconsistentie doorgaans de nauwkeurigheid van debatten evenaart tegen lagere tokenkosten.

ai
llm
machine-learning
automation
+3
AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken
·mike

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

AGrail (ACL 2025) introduceert een coöperatieve waarborg met twee LLM's die veiligheidscontroles tijdens inferentie aanpast via test-time adaptatie, met een succespercentage van 0% voor prompt-injectie-aanvallen en 95,6% behoud van legitieme acties op Safe-OS — vergeleken met GuardAgent en LLaMA-Guard die tot 49,2% van de legitieme acties blokkeren.

ai
llm
security
automation
+3
ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents
·mike

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

ShieldAgent (ICML 2025) vervangt op LLM gebaseerde guardrails door probabilistische regelcircuits gebouwd op Markov Logic Networks, waarmee een nauwkeurigheid van 90,4% op agent-aanvallen wordt behaald met 64,7% minder API-oproepen — en wat dit betekent voor verifieerbare veiligheid in financiële AI-systemen.

ai
llm
machine-learning
security
+4
Atlas: Gezamenlijke Retriever-Reader Pre-Training Verslaat LLM's met 540 Miljard Parameters met Slechts 11 Miljard Parameters
·mike

Atlas: Gezamenlijke Retriever-Reader Pre-Training Verslaat LLM's met 540 Miljard Parameters met Slechts 11 Miljard Parameters

Atlas (JMLR 2023) behaalt een nauwkeurigheid van 42,4% op Natural Questions met slechts 64 trainingsvoorbeelden—3 punten beter dan PaLM 540B met 11 miljard parameters—door een op Contriever gebaseerde dense retriever gezamenlijk voor te trainen met een T5 Fusion-in-Decoder reader. De analyse behandelt de limieten van retrieval-nauwkeurigheid, infrastructuurkosten voor een index van 587 GB en de implicaties voor QA-systemen voor Beancount-grootboeken.

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder: Hoe Multi-Passage Retrieval Generatieve QA Verbetert
·mike

Fusion-in-Decoder: Hoe Multi-Passage Retrieval Generatieve QA Verbetert

De FiD-architectuur van Izacard en Grave codeert opgehaalde passages onafhankelijk en voegt ze vervolgens samen in de decoder, waarmee het RAG-Sequence met 4–11 punten wordt overtroffen op NQ en TriviaQA. Dit bericht onderzoekt het ontwerp en de implicaties voor Beancount grootboek-QA, waar synthese van meerdere boekingen over transacties heen de norm is.

ai
machine-learning
llm
beancount
+2
37–48 van 87 berichten tonen