Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten

StructRAG (ICLR 2025) stuurt elke zoekopdracht naar een taakgeschikt structuurtype — tabel, graaf, catalogus, algoritme of chunk — alvorens te redeneren. Het scoort 28 punten hoger dan GraphRAG op de Loong-benchmark terwijl het 22× sneller draait, waarbij de met DPO getrainde router alleen al verantwoordelijk is voor een nauwkeurigheidswinst van 15 punten.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens

Een Stanford-preprint uit 2026 egaliseert de budgetten voor denk-tokens over vijf multi-agent-architecturen en stelt vast dat single-agent LLM's multi-agent-systemen evenaren of verslaan bij multi-hop redeneren — met een theoretische onderbouwing in de Dataverwerkingsongelijkheid en implicaties voor het ontwerp van financiële AI-agents.

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench: Zijn debatten tussen meerdere agenten echt effectief over verschillende domeinen en modaliteiten?

M3MAD-Bench onderwerpt debatten tussen meerdere agenten aan een stresstest over 9 modellen, 5 domeinen en vision-language-omgevingen. De bevindingen tonen aan dat collectieve waan de oorzaak is van 65% van de fouten, dat tegenstrijdige debatten de nauwkeurigheid met wel 12,8% verlagen en dat zelfconsistentie doorgaans de nauwkeurigheid van debatten evenaart tegen lagere tokenkosten.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

AGrail (ACL 2025) introduceert een coöperatieve waarborg met twee LLM's die veiligheidscontroles tijdens inferentie aanpast via test-time adaptatie, met een succespercentage van 0% voor prompt-injectie-aanvallen en 95,6% behoud van legitieme acties op Safe-OS — vergeleken met GuardAgent en LLaMA-Guard die tot 49,2% van de legitieme acties blokkeren.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

ShieldAgent (ICML 2025) vervangt op LLM gebaseerde guardrails door probabilistische regelcircuits gebouwd op Markov Logic Networks, waarmee een nauwkeurigheid van 90,4% op agent-aanvallen wordt behaald met 64,7% minder API-oproepen — en wat dit betekent voor verifieerbare veiligheid in financiële AI-systemen.

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas: Gezamenlijke Retriever-Reader Pre-Training Verslaat LLM's met 540 Miljard Parameters met Slechts 11 Miljard Parameters

Atlas (JMLR 2023) behaalt een nauwkeurigheid van 42,4% op Natural Questions met slechts 64 trainingsvoorbeelden—3 punten beter dan PaLM 540B met 11 miljard parameters—door een op Contriever gebaseerde dense retriever gezamenlijk voor te trainen met een T5 Fusion-in-Decoder reader. De analyse behandelt de limieten van retrieval-nauwkeurigheid, infrastructuurkosten voor een index van 587 GB en de implicaties voor QA-systemen voor Beancount-grootboeken.

AIMachine LearningLLMBeancountData SciencePlain-Text Accounting

Fusion-in-Decoder: Hoe Multi-Passage Retrieval Generatieve QA Verbetert

De FiD-architectuur van Izacard en Grave codeert opgehaalde passages onafhankelijk en voegt ze vervolgens samen in de decoder, waarmee het RAG-Sequence met 4–11 punten wordt overtroffen op NQ en TriviaQA. Dit bericht onderzoekt het ontwerp en de implicaties voor Beancount grootboek-QA, waar synthese van meerdere boekingen over transacties heen de norm is.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.

AILLMMachine LearningAutomationBeancountTransaction Validation

Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden

Een diepgaande analyse van het ICML 2024 multi-agent debat-artikel van Du et al. — dat een winst van 14,8 punten in nauwkeurigheid bij rekenen rapporteert — samen met weerleggingen uit 2025 die aantonen dat enkelvoudige agents met een gelijk budget de prestaties van het debat evenaren, en een analyse van waarom collectieve waanbeelden (65% van de debatmislukkingen) specifieke risico's vormen voor AI-ondersteunde grootboek-commits.

InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen

Latest articles

StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten

Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens

M3MAD-Bench: Zijn debatten tussen meerdere agenten echt effectief over verschillende domeinen en modaliteiten?

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

Atlas: Gezamenlijke Retriever-Reader Pre-Training Verslaat LLM's met 540 Miljard Parameters met Slechts 11 Miljard Parameters

Fusion-in-Decoder: Hoe Multi-Passage Retrieval Generatieve QA Verbetert

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch