Могут ли LLM-агенты быть финансовыми директорами? 132-месячная симуляция EnterpriseArena выявляет огромный разрыв
Самый амбициозный вопрос в области финансового ИИ сейчас — не «может ли LLM ответить на вопрос о балансовом отчете?», а «может ли LLM управлять деньгами компании в течение длительного времени, не обнулив счет?». Работа И Ханя и др. Can LLM Agents Be CFOs? (arXiv:2603.23638) представляет EnterpriseArena для проверки именно этого сценария, и ответ таков: едва ли, и не так, как вы могли бы ожидать.
О статье
EnterpriseArena — это 132-месячная (11-летняя) симуляция распределения ресурсов на уровне финансового директора (CFO). Каждый шаг представляет один месяц. Агент получает частичные данные о финансовых показателях фирмы, анонимизированные бизнес-документы и макроэкономические сигналы, полученные из данных FRED, CBOE и S&P Global. У него есть бюджет в 20 вызовов инструментов в месяц, распределенных по четырем операциям: проверка остатка денежных средств, обзор финансовых записей, анализ рыночных условий и прогнозирование денежных потоков. Агент должен выбрать одно из трех действий: закрыть книги (сверка), запросить финансирование (акционерный капитал или долг со случайным результатом) или пропустить ход. Основное ограничение заключается в том, что остаток денежных средств компании должен оставаться положительным на каждом этапе; нарушение этого правила завершает эпизод с нулевым результатом. При условии выживания агент максимизирует итоговую оценку предприятия по формуле Rev_T × 5 + Cash_T − 5 000 × N_tools, которая явно штрафует за избыточное использование инструментов.
Было оценено одиннадцать LLM, включая Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B и Qwen3.5-9B, наряду с базовым уровнем эксперта-человека, подтвержденным двумя профессионалами в области финансов с опытом работы 8 и 14 лет соответственно.
Ключевые идеи
- Показатели выживаемости сильно различаются между моделями: Qwen3.5-9B выживает в 80% случаев, Gemini-3.1-Pro — в 50%, Claude-Haiku-4.5 и GLM-5 — по 20% каждый, а GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B и Mixtral-8x7B — 0%. Средний показатель для LLM составляет 26%.
- Более крупные модели не всегда превосходят меньшие: Qwen3.5-9B (9 млрд параметров, 80% выживаемости, конечная оценка $78,8 млн) решительно побеждает Qwen3.5-397B (397 млрд параметров, 20% выживаемости) и GPT-5.4 (0% выживаемости).
- Разрыв с людьми огромен: базовый уровень человека достигает 100% выживаемости и конечной стоимости в $152,2 млн ± $29,6 млн; средний показатель LLM составляет $28,2 млн при 26% выживаемости.
- Закрыти е книг — критическое узкое место: эксперты-люди закрывают книги (проводят сверку) на 94,3% временных этапов; LLM в среднем делают это в 19,3% случаев. Именно это действие формирует достоверную финансовую отчетность и позволяет принимать рациональные последующие решения.
- Сбор информации без действий смертелен: Qwen3.5-397B активно использует инструменты анализа рынка и прогнозирования на протяжении всей симуляции, но почти никогда не закрывает книги (частота 0,0%) и почти никогда не запрашивает финансирование, погибая от истощения денежных средств, несмотря на «знание» происходящего.
- Штраф за бюджет инструментов имеет значение: формула оценки активно наказывает агентов, которые компульсивно проверяют данные вместо того, чтобы действовать — ограничение, отражающее реальные альтернативные издержки.