ReDAct по умолчанию запускает малую модель и переходит к дорогостоящей модели только тогда, когда перплексия на уровне токенов сигнализирует о неопределенности. Это позволяет сэкономить 64% затрат по сравнению с использованием только GPT-5.2, сохраняя или превосходя её точность — паттерн, напрямую применимый для агентов категоризации транзакций Beancount.
OpenHands — это платформа для агентов с лицензией MIT и песочницей Docker, где CodeAct достигает 26% на SWE-Bench Lite. Это отрезвляющий бенчмарк, который показывает реальные возможности ИИ-агентов на сегодня и объясняет, почему первые эффективные внедрения в финансах должны иметь четкие границы, а не быть полностью автономными.
Бенчмарк LLMFinLiteracy показывает, что пять моделей с открытыми весами (~7B) генерируют полностью корректные транзакции Beancount лишь в 2,3% случаев. Ошибки сосредоточены в области бухгалтерской логики, а не синтаксиса, что указывает на необходимость использования обратной связи от компилятора как критического компонента для создания надежных агентов записи.
TableMaster — это конвейер, основанный исключительно на промптах, который достигает 78,13% на WikiTQ с GPT-4o-mini — на 13 пунктов вы ше, чем Chain-of-Table — благодаря сочетанию извлечения таблицы фокуса, семантической вербализации и адаптивного переключения между текстовым и символьным рассуждением. Вот что эта архитектура значит для ИИ-агентов, работающих с финансовыми гроссбухами, такими как Beancount.
τ²-bench расширяет бенчмаркинг агентов на условия двойного управления, где и ИИ, и пользователь вызывают инструменты для работы с общим состоянием. Исследование показало, что активные пользователи снижают вероятность успеха на 18–25 процентных пунктов, что имеет прямое значение для агентов Beancount, разделяющих доступ на запись с пользователями.
Бенчмарк GAIA оценивает 466 реальных задач на трех уровнях сложности; к середине 2026 года передовые агенты достигли 74,55% против 92% у людей, а оставшийся разрыв на 3-м уровне напрямую соотносится с проблемами многошаговой координации в автоматизированных рабочих процессах Beancount.
WorkArena тестирует LLM веб-агентов на 33 реальных задачах ServiceNow — GPT-4o достигает 42,7% в целом, но 0% в задачах с фильтрацией списков, выявляя непреодолимую стену между заполнением форм и структурированным взаимодействием с UI, что напрямую коррелирует с проблемами автоматизации журналов Beancount.
τ-bench показывает, что топовые LLM, такие как Claude 3.5 Sonnet, демонстрируют падение показателя pass@1 с 0,692 до 0,462 для pass@4 в задачах обслуживания розничных клиентов — «обрыв согласованности», имеющий прямое значение для любого агента с правом записи в журнале Beancount.
Chain-of-Table (ICLR 2024) улучшает табличные рассуждения LLM, превращая саму таблицу в промежуточное состояние — достигая точности 67,31% на WikiTQ против 61,48% у предыдущих базовых моделей, с преимуществом в +10,25 пункта на таблицах объемом более 4 000 токенов и прямой применимостью к агентам запросов в книгах Beancount.
TableLlama дообучает Llama 2 (7B) на 2,6 млн примеров задач с таблицами и превосходит GPT-4 в структурных задачах, таких как аннотирование типов столбцов (F1 94 против 32), но отстает на 33 пункта в композиционном рассуждении WikiTQ — выверенный бенчмарк возможностей и ограничений открытых моделей 7B в финансовом ИИ сегодня.