StructRAG (ICLR 2025) stuurt elke zoekopdracht naar een taakgeschikt structuurtype — tabel, graaf, catalogus, algoritme of chunk — alvorens te redeneren. Het scoort 28 punten hoger dan GraphRAG op de Loong-benchmark terwijl het 22× sneller draait, waarbij de met DPO getrainde router alleen al verantwoordelijk is voor een nauwkeurigheidswinst van 15 punten.
Een Stanford-preprint uit 2026 egaliseert de budgetten voor denk-tokens over vijf multi-agent-architecturen en stelt vast dat single-agent LLM's multi-agent-systemen evenaren of verslaan bij multi-hop redeneren — met een theoretische onderbouwing in de Dataverwerkingsongelijkheid en implicaties voor het ontwerp van financiële AI-agents.
M3MAD-Bench onderwerpt debatten tussen meerdere agenten aan een stresstest over 9 modellen, 5 domeinen en vision-language-omgevingen. De bevindingen tonen aan dat collectieve waan de oorzaak is van 65% van de fouten, dat tegenstrijdige debatten de nauwkeurigheid met wel 12,8% verlagen en dat zelfconsistentie doorgaans de nauwkeurigheid van debatten evenaart tegen lagere tokenkosten.
AGrail (ACL 2025) introduceert een coöperatieve waarborg met twee LLM's die veiligheidscontroles tijdens inferentie aanpast via test-time adaptatie, met een succespercentage van 0% voor prompt-injectie-aanvallen en 95,6% behoud van legitieme acties op Safe-OS — vergeleken met GuardAgent en LLaMA-Guard die tot 49,2% van de legitieme acties blokkeren.
ShieldAgent (ICML 2025) vervangt op LLM gebaseerde guardrails door probabilistische regelcircuits gebouwd op Markov Logic Networks, waarmee een nauwkeurigheid van 90,4% op agent-aanvallen wordt behaald met 64,7% minder API-oproepen — en wat dit betekent voor verifieerbare veiligheid in financiële AI-systemen.
Atlas (JMLR 2023) behaalt een nauwkeurigheid van 42,4% op Natural Questions met slechts 64 trainingsvoorbeelden—3 punten beter dan PaLM 540B met 11 miljard parameters—door een op Contriever gebaseerde dense retriever gezamenlijk voor te trainen met een T5 Fusion-in-Decoder reader. De analyse behandelt de limieten van retrieval-nauwkeurigheid, infrastructuurkosten voor een index van 587 GB en de implicaties voor QA-systemen voor Beancount-grootboeken.
De FiD-architectuur van Izacard en Grave codeert opgehaalde passages onafhankelijk en voegt ze vervolgens samen in de decoder, waarmee het RAG-Sequence met 4–11 punten wordt overtroffen op NQ en TriviaQA. Dit bericht onderzoekt het ontwerp en de implicaties voor Beancount grootboek-QA, waar synthese van meerdere boekingen over transacties heen de norm is.
GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.
Een diepgaande analyse van het ICML 2024 multi-agent debat-artikel van Du et al. — dat een winst van 14,8 punten in nauwkeurigheid bij rekenen rapporteert — samen met weerleggingen uit 2025 die aantonen dat enkelvoudige agents met een gelijk budget de prestaties van het debat evenaren, en een analyse van waarom collectieve waanbeelden (65% van de debatmislukkingen) specifieke risico's vormen voor AI-ondersteunde grootboek-commits.