GPT-4 достигает среднего значения AUROC 74,1 на бенчмарке ODDS без дообучения — почти на уровне классического базового алгоритма ECOD (75,5) — но терпит неудачу на многомерных аномалиях и датасетах с высокой дисперсией; критический обзор zero-shot обнаружения аномалий с помощью LLM и его значение для автоматизированного аудита гроссбухов Beancount.
DocFinQA заменяет отобранные отрывки FinQA объемом 700 слов полными отчетами SEC объемом 123 000 слов, что увеличивает контекст в 175 раз и почти вдвое снижает точность GPT-4 на длинных документах. Пайплайны поиска не могут найти нужный фрагмент в 45% случаев при HR@3, и модели с длинным контекстом не являются полноценной заменой.
TheAgentCompany тестирует 175 реальных рабочих задач в симулированной интрасети с GitLab, OwnCloud и RocketChat. Лучшая модель (Gemini-2.5-Pro) выполняет лишь 30% задач по цене 4 доллара за каждую, что доказывает: автономные агенты все еще далеки от пригодности для рабочих процессов в бухгалтерии и финансах.
τ²-bench расширяет бенчмаркинг агентов на условия двойного управления, где и ИИ, и пользователь вызывают инструменты для работы с общим состоянием. Исследование показало, что активные пользователи снижают вероятность успеха на 18–25 процентных пунктов, что имеет прямое значение для агентов Beancount, разделяющих доступ на запись с пользователями.
WorkArena++ (NeurIPS 2024) тестирует 682 композиционные корпоративные задачи на трех уровнях сложности. GPT-4o решает 2,1% из них, в то время как люди — 93,9%, что точно определяет причины неудач современных ИИ-агентов в интеллектуальной работе с неявными целями и показывает значение этого разрыва для автономной автоматизации учета.
Бенчмарк GAIA оценивает 466 реальных задач на трех уровнях сложности; к середине 2026 года передовые агенты достигли 74,55% против 92% у людей, а оставшийся разрыв на 3-м уровне напрямую соотносится с проблемами многошаговой координации в автоматизированных рабочих процессах Beancount.
OSWorld (NeurIPS 2024) тестирует мультимодальных ИИ-агентов на 369 реальных настольных задачах в Ubuntu, Windows и macOS. Выявлен разрыв в 60 процентных пунктов между лучшей моделью (12,24%) и эффективностью человека (72,36%), при этом 75% неудач связаны с ошибками визуально-моторного заземления, а не сбоями в рассуждениях.
GPT-4 выполняет лишь 14,41% из 812 реалистичных веб-задач WebArena, тогда как люди достигают 78,24%; основной причиной неудач является ложная невыполнимость — консер вативный отказ от действий, что имеет прямые последствия для любого агента, работающего с Fava или финансовыми веб-интерфейсами.
WorkArena тестирует LLM веб-агентов на 33 реальных задачах ServiceNow — GPT-4o достигает 42,7% в целом, но 0% в задачах с фильтрацией списков, выявляя непреодолимую стену между заполнением форм и структурированным взаимодействием с UI, что напрямую коррелирует с проблемами автоматизации журналов Beancount.