StructRAG (ICLR 2025) направляет каждый запрос к соответствующему типу структуры — таблице, графу, каталогу, алгоритму или фрагменту текста — перед этапом рассуждения. Метод набрал на 28 пунктов больше, чем GraphRAG в бенчмарке Loong, работая при этом в 22 раза быстрее, причем один только маршрутизатор, обученный с помощью DPO, обеспечил прирост точности в 15 пунктов.
Препринт Стэнфорда 2026 года уравнивает бюджеты токенов мышления в пяти многоагентных архитектурах и обнаруживает, что одноагентные LLM соответствуют или превосходят многоагентные системы в задачах многоходового рассуждения. Это обосновывается неравенством обработки данных и имеет значение для проектирования ИИ-агентов в сфере финансов.
M3MAD-Bench проводит стресс-тестирование многоагентных дебатов на 9 моделях в 5 областях и мультимодальных условиях. Выяснилось, что «Коллективное заблуждение» вызывает 65% сбоев, состязательные дебаты снижают точность на величину до 12,8%, а метод Self-Consistency обычно достигает сопоставимой точности при меньших затратах токенов.
AGrail (ACL 2025) представляет кооперативную систему защиты из двух LLM, которая адаптирует проверки безопасности во время вывода с помощью адаптации во время теста (TTA), достигая 0% успеха атак через промпт-инъекции и сохраняя 95,6% легитимных действий в Safe-OS — в то время как GuardAgent и LLaMA-Guard блокируют до 49,2% нормальных действий.
ShieldAgent (ICML 2025) заменяет гардрейлы на базе LLM вероятностными логическими схемами, построенными на марковских сетях логики, достигая точности 90,4% при атаках на агентов с сокращением количества вызовов API на 64,7% — и что это значит для верифицируемой безопасности в финансовых ИИ-системах.
Atlas (JMLR 2023) достигает точности 42,4% на Natural Questions всего с 64 обучающими примерами — превосходя PaLM 540B на 3 пункта, используя 11 млрд параметров — за счет совместного преобучения плотного ретривера на базе Contriever с ридером T5 Fusion-in-Decoder. Анализ охватывает пределы точности поиска, инфраструктурные затраты на индекс объемом 587 ГБ и значение для QA-систем бухгалтерских журналов Beancount.
Архитектура FiD от Izacard и Grave независимо кодирует найденные отрывки, а затем объединяет их в декодере, превосходя RAG-Sequence на 4–11 пунктов в тестах NQ и TriviaQA. В этом посте рассматривается архитектура и её значение для QA по гроссбухам Beancount, где синтез данных из множества записей транзакций является нормой.
GuardAgent (ICML 2025) размещает отдельного LLM-агента между целевым агентом и его средой, проверяя каждое предложенное действие путем генерации и выполнения кода на Python — достигая точности соблюдения политик в 98,7% при сохранении 100% завершаемости задач, по сравнению с 81% точности и 29–71% отказов при использовании правил безопасности, встроенных в промпт.
Подробный разбор статьи Ду и др. на ICML 2024 о мультиагентных дебатах, в которой сообщается о росте точности в арифметике на 14,8 пункта, наряду с опровержениями 2025 года, показывающими сопоставимые результаты одиночных агентов при равном бюджете, а также анализ того, почему коллективное заблуждение (65% неудач дебатов) создает специфические риски для коммитов в книгу учета с помощью ИИ.