Перейти к контенту

Бенчмарк FinMaster: почему LLM набирают 96% по финансовой грамотности, но лишь 3% при формировании отчетности

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Статья о FinMaster попала в мой список для чтения сразу после ReAct. Если ReAct посвящен тому, как агенты решают, когда действовать, то FinMaster задает более сложный вопрос: насколько хорошо современные лучшие LLM справляются с реальными бухгалтерскими процессами, которые эти агенты должны выполнять? Опубликованный в мае 2025 года, это первый бенчмарк на моей памяти, охватывающий весь цикл — финансовую грамотность, бухгалтерский учет, аудит и консалтинг — в рамках единой структуры оценки.

О статье

2026-04-18-finmaster-financial-workflows-llm-benchmark

Цзян и др. представляют FinMaster (arXiv:2505.13533) — трехуровневый бенчмарк для оценки LLM в финансовых рабочих процессах. Первый компонент, FinSim, представляет собой генератор синтетических данных, который симулирует пять типов компаний и создает проводки в главной книге — как верные, так и намеренно ошибочные — для наполнения тестовых сценариев без опасений за конфиденциальность реальных данных. Второй, FinSuite, объединяет 183 задачи, охватывающие финансовую грамотность, бухучет, аудит и консалтинг на различных уровнях сложности. Третий, FinEval, предоставляет унифицированный интерфейс для скоринга. Вместе, по утверждению авторов, FinMaster является первым бенчмарком, охватывающим всю финансовую цепочку с бесконечной и безопасной генерацией данных — утверждение, которое подтверждается при сравнении со статичными предшественниками, такими как FinBen и FinanceBench.

Ключевые идеи

  • Обрыв на сложности: модели набирают в среднем ~96% по финансовой грамотности (чтение балансовых отчетов, отчетов о прибылях и убытках), затем падают до 40–60% на базовых бухгалтерских расчетах, опускаются ниже 20% на многошаговых задачах и достигают всего 3% на формировании финансовой отчетности. Грамотность и вычисления — это не один и тот же навык.
  • Распространение ошибок критично: в задачах консалтинга расчеты по одному показателю имели точность в среднем 58%; в сценариях с несколькими показателями, где эти расчеты выстраивались в цепочку, точность упала до 37% — падение на 21 пункт из-за накопления мелких ошибок.
  • Плотная борьба в топе: o3-mini (0.73 в среднем), Claude-3.7-Sonnet (0.72) и DeepSeek-V3-2503 (0.70) идут очень близко друг к другу, что говорит о нетривиальности бенчмарка, но и об отсутствии явного лидерства на данный момент.
  • Бухгалтерский учет — самая сложная область: у всех семи протестированных моделей баллы по бухучету варьировались от 0.04 до 0.35 — значительно ниже любой другой категории. Результат в 3% при формировании отчетности означает, что LLM пока не могут надежно синтезировать журнал транзакций в связный финансовый отчет.
  • Модели с логическим выводом (reasoning) немного помогают: o3-mini лидирует в целом, но не с решающим отрывом. Рассуждения в стиле Chain-of-thought действительно полезны, но они не могут преодолеть разрыв в 93 пункта между грамотностью и формированием отчетности.
  • FinSim позволяет проводить стресс-тестирование в масштабе: предыдущие бенчмарки используют статичные наборы данных, уязвимые к загрязнению со временем. FinMaster может генерировать новые сценарии по запросу, что важно для изучения того, обобщают ли модели знания или просто запоминают их.

Что подтверждается, а что — нет

Основной результат — резкое ухудшение многошаговых финансовых рассуждений — заслуживает доверия и соответствует паттернам из LOG-001 (FinBen) и LOG-002 (Toolformer). Я верю выводам о распространении ошибок; структурно это похоже на то, что происходит в любой цепочке арифметических действий. Генератор FinSim — это подлинный методологический вклад: бенчмарк, способный создавать свежие сценарии, противостоит проблеме запоминания, которая преследует статичные финансовые наборы данных.

В чем я менее уверен: 183 задачи — это слишком мало для бенчмарка, претендующего на целостный охват. Тридцать пять задач по аудиту не могут характеризовать область столь обширную, как финансовый аудит, где классификации ошибок в реальном мире содержат сотни записей. В статье вся область сводится к 12 базовым типам ошибок, что скрывает неоднородность реальных результатов аудита.

Единый совокупный балл в таблице лидеров также скрывает важные междоменные паттерны. Аудит и консалтинг имеют очень разные профили в зависимости от модели, и усреднение этих показателей дает цифру, которую легко цитировать, но на основе которой сложно действовать.

Ограничение синтетических данных — палка о двух концах. FinSim генерирует чистые, хорошо структурированные данные главной книги. Реальные учетные системы несут в себе десятилетия наследия в виде специфических кодировок, артефактов округления валют и внецикловых корректировок, которые не улавливает ни один симулятор. Показатель в 3% на синтетической генерации отчетности удручает; тот же замер на запутанных книгах реальной компании, вероятно, будет еще печальнее. Статья также ограничена только текстом — авторы признают отсутствие мультимодальности, но не измеряют её. Большая часть бухгалтерской работы на самом деле происходит в отсканированных PDF и электронных таблицах.

Почему это важно для ИИ в финансах

Это самая актуальная статья со времен FinBen для повестки Bean Labs. Кейс использования Beancount по сути является подмножеством того, что оценивает FinMaster: учет на уровне транзакций, многошаговые вычисления и формирование отчетов. 3% при формировании отчетности — отрезвляющая цифра. Она говорит мне о том, что даже с хорошо спроектированным каркасом агента ReAct, способность базовой модели синтезировать корректный балансовый отчет Beancount из журнала транзакций ненадежна без специализированного дообучения или инфраструктуры поиска (retrieval).

Результат распространения ошибок напрямую связан с безопасностью обратной записи (write-back). Если цепочка задач консалтинга теряет 21 пункт точности от первого шага ко второму, то автономный агент Beancount, выполняющий трехэтапную сверку, будет накапливать ошибки на каждой стадии. Это весомый аргумент в пользу разбиения задач агента на мельчайшие атомарные операции и проверки промежуточных результатов вместо того, чтобы полагаться на сквозные рассуждения LLM.

FinSim также подсказывает конкретное направление для Bean Labs: специализированный симулятор транзакций для Beancount мог бы генерировать размеченные тестовые случаи для оценки и тонкой настройки моделей на операциях с бухгалтерскими книгами. Архитектура уже есть; домен просто нужно перенести.

Что почитать дальше

  • Анализ финансовой отчетности с помощью больших языковых моделей (Alex Kim, Maximilian Muhn, Valeri Nikolaev; arXiv:2407.17866) — проверяет способность GPT-4 предсказывать динамику прибыли на основе финансовой отчетности, достигая паритета с узкоспециализированными моделями ML; полезная контр-точка к пессимистичным данным FinMaster о формировании отчетности.
  • FinAuditing: бенчмарк с многодокументным логическим выводом на основе финансовой таксономии (arXiv:2510.08886) — более детальная оценка аудита с рассуждениями по нескольким документам; дополняет скудный охват FinMaster в 35 задач по аудиту.
  • AuditBench: бенчмарк для больших языковых моделей в области аудита финансовой отчетности (Springer 2025) — сопоставляет синтезированные данные транзакций с реальными финансовыми таблицами для проверки обнаружения ошибок и их объяснения; методология, напрямую сопоставимая с модулем аудита FinMaster.