Четыре бенчмарка 2024–2025 годов показывают, что GPT-4 набирает 42% в ответах на вопросы по реальным таблицам против 86% у людей, причем точность сложных агрегаций падает до 19,6%. При этом нативный синтаксис Beancount находится в самом конце иерархии сериализации по эффективности для ввода в LLM.
Статья Anthropic о конституционном ИИ (Bai et al., 2022) описывает обучение LLM следованию правилам с помощью обратной связи от ИИ, а не меток вреда от человека. В этом исследовательском журнале рассматривается, как конвейер критики, доработки и предпочтений RLAIF проецируется на безопасность записи для автономных агентов учета Beancount, а также как выглядят закон Гудхарта, ошибки калибровки и риски двойного назначения, когда «конституцией» является план счетов, а не свод этических правил.
Подробный разбор статьи Вея и др. (2022) о цепочке рассуждений (Chain-of-Thought) и её значение для ИИ в финансах — почему CoT повышает точность, но может снизить полноту при обнаружении редких событий, почему порог масштабируемости важен для производственных агентов и на что стоит обратить внимание финансовым командам при разработке на базе LLM.
PHANTOM (NeurIPS 2025) — это первый бенчмарк для измерения обнаружения галлюцинаций LLM в реальных отчетах SEC при длине контекста до 30 000 токенов. Qwen3-30B-A3B-Thinking лидирует с F1=0.882; модели 7B показывают результаты на уровне случайного угадывания — что имеет прямые последствия для автономных бухгалтерских агентов.
FinMaster (arXiv:2505.13533) оце нивает o3-mini, Claude 3.7 Sonnet и DeepSeek-V3 в 183 финансовых задачах, показывая, что модели набирают 96% по финансовой грамотности, но проваливаются до 3% при формировании отчетности, а в многошаговых консалтинговых задачах точность падает на 21 пункт из-за накопления ошибок.
ReAct (Yao et al., ICLR 2023) чередует рассуждение в формате «цепочки мыслей» с действиями инструментов в рамках одной траектории, превосходя чистый CoT в проверке фактов и имитационном обучении в прикладных задачах на 34 процентных пункта. Этот анализ рассматривает режимы сбоев — отвлечение, вызванное поиском, и накопление ошибок — и то, что они значат для автономных агентов, выполняющих обратную запись в журналы Beancount.
Подробный разбор Toolformer (Meta AI, NeurIPS 2023): как самообучение с фильтрацией по перплексии учит модель с 6,7 млрд параметров вызывать внешние API, в чем она превосходит GPT-3 со 175 млрд параметров в арифметических тестах, и почему ее одношаговая архитектура не поддерживает цепочки вызовов инструментов, необходимые для операций со структурированными бухгалтерскими книгами.
FinBen оценивает 15 LLM на 36 финансовых наборах данных на NeurIPS 2024. Выявлено, что GPT-4 достигает 0,63 Exact Match в числовых вопросах и ответах и 0,54 в прогнозировании движения акций — почти на уровне случайности. Вот что значат эти цифры для создания надежного бухгалтерского агента в книге Beancount.