StructRAG (ICLR 2025) насочва всяка заявка към подходящ за задачата тип структура — таблица, граф, каталог, алгоритъм или сегмент (chunk) — преди да премине към разсъждения, постигайки с 28 точки по-висок резултат от GraphRAG в бенчмарка Loong, като същевременно работи 22 пъти по-бързо, като само маршрутизаторът, обучен с DPO, допринася за 15 точки ръст в точността.
Предварителна публикация от Станфорд от 2026 г. изравнява бюджетите от токени за мислене в пет многоагентни архитектури и установява, че едноагентните LLM съвпадат или побеждават многоагентните системи при многостъпкови разсъждения — с теоретична основа в Неравенството при обработката на данни и последици за проектирането на финансови AI агенти.
M3MAD-Bench подлага на стрес-тест дебатите между множество агенти (Multi-Agent Debate) в 9 модела, 5 области и визуално-езикови среди, установявайки, че колективната заблуда причинява 65% от неуспехите, състезателният дебат намалява точността с до 12,8%, а самосъгласуваността обикновено съответства на точността на дебата при по-ниска цена на токените.
AGrail (ACL 2025) въвежда кооперативен защитен механизъм с два LLM модела, който адаптира проверките за безопасност по време на извеждане чрез адаптация по време на тест (TTA), постигайки 0% успех на атаки с вмъкване на подкани и 95,6% запазване на легитимни действия в Safe-OS — в сравнение с GuardAgent и LLaMA-Guard, които блокират до 49,2% от легитимните действия.
ShieldAgent (ICML 2025) заменя базираните на LLM защитни прегради с вероятностни схеми с правила, изградени върху логически мрежи на Марков, постигайки 90,4% точност при атаки срещу агенти с 64,7% по-малко API повиквания — и какво означава това за проверимата безопасност във финансовите AI системи.
Atlas (JMLR 2023) постига 42,4% точност при Natural Questions само с 64 примера за обучение – побеждавайки PaLM 540B с 3 пункта, използвайки 11 милиарда параметри – чрез съвместно предварително обучение на гъст ретривър, базиран на Contriever, с T5 Fusion-in-Decoder рийдър. Анализът обхваща границите на точността на извличане, инфраструктурните разходи за 587GB индекс и последиците за системи за въпроси и отговори върху Beancount главни книги.
Архитектурата FiD на Izacard и Grave кодира независимо извлечените пасажи, след което ги обединява в декодера, превъзхождайки RAG-Sequence с 4–11 пункта при NQ и TriviaQA. Тази публикация разглежда дизайна и неговото значение за QA при Beancount регистри, където синтезът на множество записи в трансакциите е норма.
GuardAgent (ICML 2025) поставя отделен LLM агент между целевия агент и неговата среда, като верифицира всяко предложено действие чрез генериране и изпълнение на Python код — постигайки 98,7% точност при прилагане на политиките, като същевременно запазва 100% изпълнение на задачите, в сравнение с 81% точност и 29–71% неуспех на задачите при вградени в инструкциите (prompt) правила за безопасност.
Подробен анализ на статията за дебат между мултиагентни системи на Du et al. от ICML 2024 — отчитаща 14,8 пункта ръст в точността при аритметика — заедно с опровержения от 2025 г., показващи, че единични агенти със същия бюджет достигат сходна производителност, и анализ защо колективната заблуда (65% от неуспехите при дебати) крие специфични рискове за автоматизирани записи в счетоводни книги.