Doorgaan naar hoofdinhoud

Bean Labs Research Log

InvestorBench: LLM-agenten benchmarken op financiële handelsbeslissingen

InvestorBench (ACL 2025) test 13 LLM-backbones op gebackteste aandelen-, crypto- en ETF-handel met behulp van cumulatief rendement en Sharpe-ratio — niet op QA-nauwkeurigheid. Qwen2.5-72B voert de aandelenlijst aan met 46,15% CR; voor financiën geoptimaliseerde modellen werken averechts bij aandelen. Modelgrootte voorspelt prestaties betrouwbaarder dan domeinspecifieke fine-tuning.

Latest articles

StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten

StructRAG (ICLR 2025) stuurt elke zoekopdracht naar een taakgeschikt structuurtype — tabel, graaf, catalogus, algoritme of chunk — alvorens te redeneren. Het scoort 28 punten hoger dan GraphRAG op de Loong-benchmark terwijl het 22× sneller draait, waarbij de met DPO getrainde router alleen al verantwoordelijk is voor een nauwkeurigheidswinst van 15 punten.

Single-Agent LLM's presteren beter dan multi-agent systemen bij multi-hop redeneren onder gelijke budgetten voor denk-tokens

Een Stanford-preprint uit 2026 egaliseert de budgetten voor denk-tokens over vijf multi-agent-architecturen en stelt vast dat single-agent LLM's multi-agent-systemen evenaren of verslaan bij multi-hop redeneren — met een theoretische onderbouwing in de Dataverwerkingsongelijkheid en implicaties voor het ontwerp van financiële AI-agents.

M3MAD-Bench: Zijn debatten tussen meerdere agenten echt effectief over verschillende domeinen en modaliteiten?

M3MAD-Bench onderwerpt debatten tussen meerdere agenten aan een stresstest over 9 modellen, 5 domeinen en vision-language-omgevingen. De bevindingen tonen aan dat collectieve waan de oorzaak is van 65% van de fouten, dat tegenstrijdige debatten de nauwkeurigheid met wel 12,8% verlagen en dat zelfconsistentie doorgaans de nauwkeurigheid van debatten evenaart tegen lagere tokenkosten.

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

AGrail (ACL 2025) introduceert een coöperatieve waarborg met twee LLM's die veiligheidscontroles tijdens inferentie aanpast via test-time adaptatie, met een succespercentage van 0% voor prompt-injectie-aanvallen en 95,6% behoud van legitieme acties op Safe-OS — vergeleken met GuardAgent en LLaMA-Guard die tot 49,2% van de legitieme acties blokkeren.

Atlas: Gezamenlijke Retriever-Reader Pre-Training Verslaat LLM's met 540 Miljard Parameters met Slechts 11 Miljard Parameters

Atlas (JMLR 2023) behaalt een nauwkeurigheid van 42,4% op Natural Questions met slechts 64 trainingsvoorbeelden—3 punten beter dan PaLM 540B met 11 miljard parameters—door een op Contriever gebaseerde dense retriever gezamenlijk voor te trainen met een T5 Fusion-in-Decoder reader. De analyse behandelt de limieten van retrieval-nauwkeurigheid, infrastructuurkosten voor een index van 587 GB en de implicaties voor QA-systemen voor Beancount-grootboeken.

Fusion-in-Decoder: Hoe Multi-Passage Retrieval Generatieve QA Verbetert

De FiD-architectuur van Izacard en Grave codeert opgehaalde passages onafhankelijk en voegt ze vervolgens samen in de decoder, waarmee het RAG-Sequence met 4–11 punten wordt overtroffen op NQ en TriviaQA. Dit bericht onderzoekt het ontwerp en de implicaties voor Beancount grootboek-QA, waar synthese van meerdere boekingen over transacties heen de norm is.

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.

Multi-agent LLM-debat: Echte nauwkeurigheidswinst, ongecontroleerde rekenkracht en collectieve waanbeelden

Een diepgaande analyse van het ICML 2024 multi-agent debat-artikel van Du et al. — dat een winst van 14,8 punten in nauwkeurigheid bij rekenen rapporteert — samen met weerleggingen uit 2025 die aantonen dat enkelvoudige agents met een gelijk budget de prestaties van het debat evenaren, en een analyse van waarom collectieve waanbeelden (65% van de debatmislukkingen) specifieke risico's vormen voor AI-ondersteunde grootboek-commits.