FinBen: Бенчмаркинг LLM в 36 финансовых задачах — последствия для ИИ в сфере бухгалтерского учета
FinBen был представлен на NeurIPS 2024 как наиболее полная на сегодняшний день публичная оценка LLM в финансовых задачах. Я хотел внимательно изучить этот бенчмарк, потому что перед проектированием любого автономного агента для книг Beancount мне нужна реалистичная картина того, на каком этапе находятся передовые модели в задачах финансового рассуждения, которые такому агенту придется выполнять.
Статья
Цяньцянь Се и 33 соавтора представляют FinBen — бенчмарк с открытым исходным кодом, охватывающий 36 наборов данных по 24 финансовым задачам, разделенным на семь измерений: извлечение информации, текстовый анализ, ответы на вопросы, генерация текста, управление рисками, прогнозирование и принятие решений. Они оценивают 15 репрезентативных LLM — включая GPT-4, ChatGPT, Gemini и несколько открытых моделей с инструктивной настройкой — и представляют три новых набора данных для суммаризации, вопросов и ответов (QA) и оценки торговли акциями.
Основная мотивация заключается в том, что предыдущие финансовые бенчмарки, такие как FLUE и FLARE, охватывали лишь отдельные аспекты финансового NLP, но были далеки от полного охвата всей цепочки процессов. FinBen — это первая попытка объединить весь стек в одном месте, и он был принят в трек «Наборы данных и бенчмарки» (Datasets and Benchmarks Track) конференции NeurIPS 2024, что подтверждает серьезность методологической проверки.
Ключевые идеи
- В задаче распознавания именованных сущностей (NER) GPT-4 набирает 0,83 Entity F1 на наборе данных FINER-ORD — сильный результат, но это самая простая категория в бенчмарке.
- В FinQA (числовое рассуждение по финансовым отчетам) GPT-4 достигает 0,63 Exact Match; в диалоговом варианте ConvFinQA результат составляет 0,76. Это достойные показатели, но задачи еще далеки от полного решения.
- Специализированная модель FinMA 7B достигает 0,88 F1 в анализе настроений FPB, превосходя GPT-4 в этой узкой задаче. Это подтверждает, что тонкая настройка (fine-tuning) все еще эффективна для четко определенных задач классификации.
- Прогнозирование движения акций — наиболее очевидный провал: даже GPT-4 показывает точность около 0,54, что едва выше случайного выбора. Авторы называют это «заметным недостатком способности LLM справляться с прогнозированием».
- GPT-4 достигает коэффициента Шарпа 1,51 в задаче трейдинга против 1,03 у Gemini и совокупной доходности 28,19% против доходности стратегии «купи и держи» -4,00% за период оценки — однако это короткий бэктест со всеми вытекающими оговорками.
- Все модели получили ноль баллов за экстрактивную суммаризацию, а GPT-4 набрала лишь 0,01 F1 в извлечении отношений. Возможности моделей резко падают за пределами зоны комфорта — классификации текста и свободной генерации.
Что подтверждается, а что нет
Бенчмарк действительно полезен как инструмент обзора. Диапазон задач шире всего, что существовало до него, а открытый доступ позволяет другим развивать инфраструктуру оценки, а не начинать с нуля.
Тем не менее, у меня есть серьезные сомнения относительно того, о чем на самом деле говорит FinBen. Период оценки трейдинга короткий и специфичен для рынка США; коэффициент Шарпа, рассчитанный за несколько месяцев на американских акциях, не является стабильным сигналом. Нулевые баллы за экстрактивную суммаризацию указывают на проблему, но в статье не диагностируется почему — связано ли это с форматом промпта, особенностями токенизации или реальным провалом в рассуждении? Это различие критически важно для тех, кто пытается исправить ситуацию.
Бенчмарк также почти полностью ориентирован на английский язык и рынок США. Это не просто оговорка об ограниченности обобщения; это означает, что результаты мало говорят о производительности, например, на немецких или китайских финансовых документах или в юрисдикциях с другими стандартами бухгалтерского учета. Для такого проекта, как Beancount.io, обслуживающего глобальную базу пользователей, это значительный пробел.
История с моделями, прошедшими инструктивную настройку, также менее прозрачна, чем кажется. Тонкая настройка помогает в анализе настроений (FinMA 7B — 0,88), но «дает лишь незначительные улучшения в сложных задачах, таких как QA». Статья сообщает об этом как о факте, но не предлагает механистического объяснения. Это результат «катастрофического забывания» способностей базовой модели к рассуждению? Или распределение данных для тонкой настройки слишком узкое? Только по охвату бенчмарка ответить на этот вопрос невозможно.
Почему это важно для финансового ИИ
Результаты FinBen дают Bean Labs более четкую базу, чем та, что была у нас раньше. Задачи, наиболее актуальные для агента книги Beancount — числовые вопросы и ответы по структурированным финансовым отчетам (FinQA: 0,63 Exact Match), извлечение информации из описаний транзакций (NER: 0,83 F1) и обнаружение аномалий или классификация мошенничества (задачи по управлению рисками, показывающие большой разброс) — все они представлены здесь, и ни одна из них не решена окончательно.
Провал в прогнозировании (0,54 на движении акций) на самом деле обнадеживает для нашего узкого сценария использования: мы не просим модели предсказывать поведение рынков, мы просим их классифицировать, извлекать и записывать структурированные данные. Эти задачи попадают в диапазон 0,63–0,83 в зависимости от сложности, что является рабочей основой — х отя «рабочая» не означает «безопасная для эксплуатации без контроля человеком».
Разрыв между структурированным извлечением и свободным рассуждением также напрямую связан с проблемой безопасности автоматической записи данных. Если модель может надежно извлечь сущность (F1 0,83), но с трудом рассуждает о ее числовых последствиях (FinQA 0,63) или генерирует корректный структурированный вывод (извлечение отношений: 0,01), то наиболее безопасная архитектура должна разделять эти шаги с обязательной валидацией между ними.
Что почитать дальше
- FinMaster (arXiv:2505.13533) — явно тестирует сквозные рабочие процессы бухгалтерского учета, включая ввод записей в журнал и сверку; ближе к задачам Beancount, чем что-либо в FinBen.
- «Table Meets LLM: Can Large Language Models Understand Structured Table Data?» (arXiv:2305.13062, WSDM 2024) — книги Beancount, по сути, представляют собой структурированные таблицы; эта статья тестирует именно те способности к пониманию структуры, которые лежат в основе любого агента для чтения книг.
- ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — фреймворк с чередованием рассуждений и действий — это то, что будет использовать большинство агентов записи; понимание режимов его отказа теперь важнее, когда FinBen показал реальный порог возможностей рассуждения.