StructRAG (ICLR 2025) спрямовує кожен запит до відповідного типу структури — таблиці, графа, каталогу, алгоритму або фрагмента — перед етапом міркування, показуючи результат на 28 пунктів вище за GraphRAG у бенчмарку Loong, працюючи при цьому у 22 рази швидше, причому лише маршрутизатор, навчений за допомогою DPO, забезпечує приріст точності у 15 пунктів.
Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.
M3MAD-Bench проводить стрес-тестування багатоагентних дебатів на прикладі 9 моделей, 5 доменів та візуально-мовних налаштувань, виявивши, що колективна омана спричиняє 65% невдач, змагальні дебати знижують точність до 12,8%, а метод Self-Consistency зазвичай відповідає точності дебатів при менших витратах токенів.
AGrail (ACL 2025) представляє кооперативний захисний бар'єр на основі двох LLM, який адаптує перевірки безпеки під час виведення за допомогою адаптації під час тестування (TTA), досягаючи 0% успішних атак через ін'єкції промптів та 95,6% збереження добронамірених дій у Safe-OS — порівняно з GuardAgent та LLaMA-Guard, які блокують до 49,2% легітимних дій.
ShieldAgent (ICML 2025) замінює запобіжники на основі LLM імовірнісними схемами правил, побудованими на мережах марковської логіки, досягаючи точності 90,4% при атаках на агентів з на 64,7% меншою кількістю викликів API — і що це означає для верифікованої безпеки у фінансових системах ШІ.
Atlas (JMLR 2023) досягає точності 42,4% на Natural Questions лише з 64 навчальними прикладами — перевершуючи PaLM 540B на 3 пункти за допомогою 11 млрд парам етрів — завдяки спільному попередньому навчанню щільного ретривера на базі Contriever та рідера T5 Fusion-in-Decoder. Аналіз охоплює межі точності пошуку, витрати на інфраструктуру індексу обсягом 587 ГБ та наслідки для систем запитань-відповідей (QA) для реєстрів Beancount.
Архітектура FiD від Ізакарда та Грейва незалежно кодує знайдені уривки, а потім об'єднує їх у декодері, перевершуючи RAG-Sequence на 4–11 пунктів у тестах NQ та TriviaQA. Цей допис розглядає дизайн та його наслідки для QA в реєстрах Beancount, де синтез багатьох записів транзакцій є нормою.
GuardAgent (ICML 2025) places a separate LLM agent between a target agent and its environment, verifying every proposed action by generating and running Python code — achieving 98.7% policy enforcement accuracy while preserving 100% task completion, versus 81% accuracy and 29–71% task failure for prompt-embedded safety rules.
Детальний аналіз статті Ду та ін. про дебати між мультиагентними системами на ICML 2024, де повідомляється про приріст точності в арифметиці на 14,8 пункту, р азом із спростуваннями 2025 року, які показують, що поодинокі агенти з однаковим бюджетом обчислень не поступаються дебатам, а також аналіз того, чому «колективна ілюзія» (65% невдач у дебатах) створює особливі ризики для фіксації записів у бухгалтерській книзі за допомогою ШІ.