WildToolBench (ICLR 2026) оціню є 57 LLM на 1024 завданнях, сформованих на основі реальної поведінки користувачів — жодна модель не перевищує 15% точності сесії, при цьому основними режимами відмов є композиційна оркестрація, прихований намір та переходи між інструкціями.
Стаття TACL 2024 року авторства Лю та ін. показує, що LLM працюють на 20 пунктів гірше з інформацією, що знаходиться посередині довгих контекстів — U-подібна деградація, яка стосується кожної протестованої моделі, включаючи Claude-1.3-100K — з конкретними наслідками для того, як RAG-пайплайни повинні впорядковувати знайдені уривки у фінансових та бухгалтерських додатках.
OSWorld (NeurIPS 2024) оцінює мультимодальних ШІ-агентів на 369 реальних десктопних завданнях в Ubuntu, Windows та macOS — виявляючи розрив у 60 відсоткових пунктів між найкращою моделлю (12,24%) та результатом людини (72,36%), причому 75% невдач пов'язані з помилками візуально-моторного заземлення, а не з вадами мислення.
StructRAG (ICLR 2025) спрямовує кожен запит до відповідного типу структури — таблиці, графа, каталогу, алгоритму або фрагмента — перед етапом міркування, показуючи результат на 28 пунктів вище за GraphRAG у бенчмарку Loong, працюючи при цьому у 22 рази швидше, причому лише маршрутизатор, навчений за допомогою DPO, забезпечує приріст точності у 15 пунктів.
Препринт Стенфордського університету 2026 року зрівнює бюджети токенів мислення для п'яти багатоагентних архітектур і виявляє, що одноагентні LLM не поступаються або перевершують багатоагентні системи в задачах багатокрокового міркування — з теоретичним обґрунтуванням через нерівність обробки даних та висновками для розробки ШІ-агентів у сфері фінансів.
Self-RAG (ICLR 2024 Oral) навчає мовну модель вирішувати, коли здійснювати пошук, а потім оцінювати власні результати за допомогою чотирьох токенів рефлексії — досягаючи 55,8% на PopQA та 80,2 FactScore на біографіях, перевершуючи ChatGPT у п'яти тестах. Аналіз охоплює механізм, результати абляції, обмеження відтворюваності та наслідки для фінансових ШІ-агентів у книгах Beancount.
AgentBench (Liu та ін., ICLR 2024) тестує 27 моделей LLM у 8 інтерактивних середовищах — GPT-4 отримав загальний бал 4,01 проти 0,96 у найкращої моделі з відкритим кодом. Три основні типи помилок (перевищення ліміту завдань у 67,9% помилок графа знань, помилки формату у 53,3% помилок бази даних та недійсні дії) безпосередньо відображають ризики розгортання агента запису Beancount у реальному гросбуху.
MemGPT застосовує підкачування віртуальної пам’яті в стилі ОС до LLM, використовуючи трирівневе сховище — робочу пам’ять, пам’ять відтворення та архівну пам’ять — щоб надати агентам стійке відтворення між сесіями; на тестах багатосесійних чатів MemGPT з GPT-4 досягає точності 92,5% проти базової лінії 32,1% з фіксованим контекстом.