Перейти к контенту

Могут ли LLM-агенты быть финансовыми директорами? 132-месячная симуляция EnterpriseArena выявляет огромный разрыв

· 7 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Самый амбициозный вопрос в области финансового ИИ сейчас — не «может ли LLM ответить на вопрос о балансовом отчете?», а «может ли LLM управлять деньгами компании в течение длительного времени, не обнулив счет?». Работа И Ханя и др. Can LLM Agents Be CFOs? (arXiv:2603.23638) представляет EnterpriseArena для проверки именно этого сценария, и ответ таков: едва ли, и не так, как вы могли бы ожидать.

О статье

2026-07-11-могут-ли-llm-агенты-быть-финансовыми-директорами-enterprisearena-бенчмарк-распределения-ресурсов

EnterpriseArena — это 132-месячная (11-летняя) симуляция распределения ресурсов на уровне финансового директора (CFO). Каждый шаг представляет один месяц. Агент получает частичные данные о финансовых показателях фирмы, анонимизированные бизнес-документы и макроэкономические сигналы, полученные из данных FRED, CBOE и S&P Global. У него есть бюджет в 20 вызовов инструментов в месяц, распределенных по четырем операциям: проверка остатка денежных средств, обзор финансовых записей, анализ рыночных условий и прогнозирование денежных потоков. Агент должен выбрать одно из трех действий: закрыть книги (сверка), запросить финансирование (акционерный капитал или долг со случайным результатом) или пропустить ход. Основное ограничение заключается в том, что остаток денежных средств компании должен оставаться положительным на каждом этапе; нарушение этого правила завершает эпизод с нулевым результатом. При условии выживания агент максимизирует итоговую оценку предприятия по формуле Rev_T × 5 + Cash_T − 5 000 × N_tools, которая явно штрафует за избыточное использование инструментов.

Было оценено одиннадцать LLM, включая Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B и Qwen3.5-9B, наряду с базовым уровнем эксперта-человека, подтвержденным двумя профессионалами в области финансов с опытом работы 8 и 14 лет соответственно.

Ключевые идеи

  • Показатели выживаемости сильно различаются между моделями: Qwen3.5-9B выживает в 80% случаев, Gemini-3.1-Pro — в 50%, Claude-Haiku-4.5 и GLM-5 — по 20% каждый, а GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B и Mixtral-8x7B — 0%. Средний показатель для LLM составляет 26%.
  • Более крупные модели не всегда превосходят меньшие: Qwen3.5-9B (9 млрд параметров, 80% выживаемости, конечная оценка $78,8 млн) решительно побеждает Qwen3.5-397B (397 млрд параметров, 20% выживаемости) и GPT-5.4 (0% выживаемости).
  • Разрыв с людьми огромен: базовый уровень человека достигает 100% выживаемости и конечной стоимости в $152,2 млн ± $29,6 млн; средний показатель LLM составляет $28,2 млн при 26% выживаемости.
  • Закрытие книг — критическое узкое место: эксперты-люди закрывают книги (проводят сверку) на 94,3% временных этапов; LLM в среднем делают это в 19,3% случаев. Именно это действие формирует достоверную финансовую отчетность и позволяет принимать рациональные последующие решения.
  • Сбор информации без действий смертелен: Qwen3.5-397B активно использует инструменты анализа рынка и прогнозирования на протяжении всей симуляции, но почти никогда не закрывает книги (частота 0,0%) и почти никогда не запрашивает финансирование, погибая от истощения денежных средств, несмотря на «знание» происходящего.
  • Штраф за бюджет инструментов имеет значение: формула оценки активно наказывает агентов, которые компульсивно проверяют данные вместо того, чтобы действовать — ограничение, отражающее реальные альтернативные издержки.

Что выдерживает критику, а что нет

Дизайн с двойной целью — выживание как жесткое ограничение плюс итоговая оценка — является одним из самых сильных решений в последних бенчмарках агентов. Это отражает то, как на самом деле работают финансовые директора: вы не можете оптимизировать рост, если у вас закончились деньги. Анонимизация календарных дат и названий компаний не позволяет моделям подбирать шаблоны на основе заученных исторических результатов, что является подлинным методологическим улучшением по сравнению с финансовыми бенчмарками, использующими реальные тикеры и даты.

Таксономия режимов отказа, которую авторы идентифицируют с помощью тематических исследований, заслуживает доверия: GPT-5.4 достигает 99,1% процента пропусков (что означает бездействие почти на каждом этапе), в то время как Qwen3.5-397B ошибочно принимает анализ за действие. Это поведенчески различные режимы отказа, требующие разных методов исправления.

В чем я менее уверен: стохастическая макросреда использует гауссов шум для аппроксимации рыночных шоков, что, как признают сами авторы, не может воспроизвести события типа «черный лебедь» или иррациональность людей. Бюджет в 20 вызовов инструментов в месяц также выглядит несколько произвольным — реальные финансовые директора не сталкиваются с подобным ограничением частоты запросов к собственной памяти, что ставит вопрос о том, измеряет ли бенчмарк долгосрочное финансовое суждение или нечто более близкое к «RAG в условиях нехватки ресурсов». Структура с одним агентом — еще одно явное ограничение, названное авторами: реальные CFO работают в иерархии контролеров, аналитиков FP&A и казначейских групп, и в статье не делается попыток симулировать это.

Вывод о том, что размер модели не предсказывает выживаемость, поразителен и, вероятно, достоверен, но механизм объяснен недостаточно хорошо. Авторы отмечают это, не раскрывая полностью, является ли это неудачей в следовании инструкциям, когерентности длинного контекста или калибровке рисков.

Почему это важно для финансового ИИ

Действие по закрытию книг в EnterpriseArena — это, по сути, утверждение balance в Beancount и этап сверки реестров: момент, когда агент фиксирует достоверное представление о финансовом состоянии перед действием. Тот факт, что LLM пропускают это в 80% случаев, напрямую связан с проблемой безопасности обратной записи: агент, избегающий сверки перед действием, — это агент, действующий на основе устаревшего или галлюцинированного состояния. Для автоматизации Beancount это означает, что этап сверки должен быть обязательным и проверяемым — а не опциональным — в любом цикле работы агента.

132-месячный горизонт также напрямую аналогичен многолетнему управлению реестрами. Тот факт, что устойчивая ситуационная осведомленность со временем деградирует, — это та же деградация, которую мы ожидаем от агента Beancount, управляющего пятилетней историей транзакций: даже если у агента есть все данные в контексте, он может не действовать согласованно на 60-м месяце. Это говорит о том, что периодические принудительные контрольные точки сверки — а не просто реактивные запросы — необходимы в долгоживущих сессиях агентов Beancount.

Ловушка сбора информации, в которую попадает Qwen3.5-397B, является полезным предупреждением для проектировщиков: агенты, оснащенные множеством инструментов поиска, могут предпочитать поиск принятию обязательств, особенно когда цена неверного действия (повреждение реестра) высока. Ограничения бюджета инструментов, подобные тем, что используются в EnterpriseArena, могут помочь обеспечить дисциплину действий в агентах обратной записи Beancount.

Что почитать дальше

  • EcoGym (arXiv:2602.09514) — дополнительный долгосрочный экономический бенчмарк в средах Vending, Freelance и Operation на протяжении 1000+ шагов; ни одна модель не доминирует во всех трех, что позволяет предположить, что режимы отказа в EnterpriseArena не являются специфичными для одной конструкции бенчмарка.
  • AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, доклады ICLR 2025) — переосмысливает проектирование рабочих процессов как поиск в пространстве кода с использованием MCTS и обратной связи от LLM; если EnterpriseArena показывает, что созданное вручную поведение агентов терпит неудачу, AFlow — очевидный следующий шаг для автоматического поиска лучших конвейеров.
  • ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — основополагающая база для обучения и оценки использования инструментов; понимание того, как обучается поведение вызова инструментов в ToolLLM, проясняет, является ли отказ от действий в EnterpriseArena проблемой обучения или проблемой промптинга.