StructRAG (ICLR 2025) smeruje každý dopyt na typ štruktúry vhodný pre danú úlohu — tabuľku, graf, katalóg, algoritmus alebo fragment — pred samotným uvažovaním, pričom v benchmarku Loong dosahuje o 28 bodov vyššie skóre ako GraphRAG a beží 22-krát rýchlejšie, pričom samotný router vytrénovaný pomocou DPO predstavuje nárast presnosti o 15 bodov.
Preprint zo Stanfordu z roku 2026 zjednocuje rozpočty thinking tokenov v piatich viacagentových architektúrach a zisťuje, že jednoagentové LLM sa vyrovnajú alebo prekonávajú viacagentové systémy v multi-hop uvažovaní – s teoretickým základom v Nerovnosti spracovania údajov a dôsledkami pre návrh finančných AI agentov.
M3MAD-Bench záťažovo testuje debatu viacerých agentov na 9 modeloch, 5 doménach a v prostrediach obraz-jazyk. Zisťuje, že kolektívna ilúzia spôsobuje 65 % zlyhaní, adverziálna debata znižuje presnosť až o 12,8 % a Self-Consistency zvyčajne dosahuje rovnakú presnosť ako debata pri nižších nákladoch na tokeny.
AGrail (ACL 2025) predstavuje kooperatívny mantinel s dvoma LLM, ktorý adaptuje bezpečnostné kontroly v čase inferencie pomocou adaptácie v čase testovania (TTA). Dosahuje 0 % úspešnosť útokov typu prompt injection a 95,6 % zachovanie legitímnych akcií na Safe-OS — v porovnaní s GuardAgent a LLaMA-Guard, ktoré blokujú až 49,2 % legitímnych akcií.
ShieldAgent (ICML 2025) nahrádza mantinely založené na LLM pravdepodobnostnými obvodmi pravidiel postavenými na Markovových logických sieťach, čím dosahuje presnosť 90,4 % pri útokoch na agentov so 64,7 % menej volaniami API — a čo to znamená pre overiteľnú bezpečnosť vo finančných AI systémoch.
Atlas (JMLR 2023) dosahuje presnosť 42,4 % v rámci Natural Questions len so 64 tréningovými príkladmi – čím prekonáva PaLM 540B o 3 body pri použití 11 miliárd parametrov – a to vďaka spoločnému predtrénovaniu hustého retrievera na báze modelu Contriever s readerom T5 Fusion-in-Decoder. Analýza pokrýva limity presnosti vyhľadávania, náklady na infraštruktúru indexu s veľkosťou 587 GB a dôsledky pre systémy odpovedania na otázky nad hlavnou knihou Beancount.
Architektúra FiD od Izacarda a Gravea nezávisle kóduje vyhľadané pasáže a následne ich spája v dekódere, čím prekonáva RAG-Sequence o 4 – 11 bodov v testoch NQ a TriviaQA. Tento príspevok skúma tento dizajn a jeho dôsledky pre QA v účtovných knihách Beancount, kde je syntéza viacerých záznamov naprieč transakciami normou.
GuardAgent (ICML 2025) umiestňuje samostatného LLM agenta medzi cieľového agenta a jeho prostredie, pričom overuje každú navrhovanú akciu generovaním a spúšťaním kódu v Pythone — dosahuje 98,7 % presnosť presadzovania pravidiel pri zachovaní 100 % dokončenia úloh, v porovnaní s 81 % presnosťou a 29 – 71 % zlyhaním úloh pri bezpečnostných pravidlách vložených priamo do promptu.
Podrobné čítanie článku Du et al. z ICML 2024 o debate viacerých agentov – ktorý uvádza 14,8-bodový nárast presnosti v aritmetike – spolu s vyvráteniami z roku 2025 ukazujúcimi, že jednotliví agenti s rovnakým rozpočtom vyrovnajú výkon debaty, a analýza toho, prečo kolektívny klam (65 % zlyhaní debaty) predstavuje špecifické riziká pre zápisy do účtovnej knihy s asistenciou AI.