Чи можуть LLM-агенти бути фінансовими директорами? 132-місячна симуляція EnterpriseArena виявляє великий розрив
Найамбітніше питання у сфері ШІ для фінансів сьогодні — це не «чи може LLM відповісти на запитання про балансовий звіт?», а «чи може LLM керувати грошима компанії протягом тривалого часу, не вичерпавши їх?». Робота Ї Ханя та ін. Can LLM Agents Be CFOs? (arXiv:2603.23638) створює EnterpriseArena саме для перевірки цього, і відповідь така: ледве, і не так, як ви очікували.
Стаття
EnterpriseArena — це 132-місячна (11-річна) симуляція розподілу ресурсів на рівні фінансового директора (CFO). Кожен крок представляє один місяць. Агент отримує часткові спостереження фінансових показників фірми, анонімізовані бізнес-документи та макроекономічні сигнали, взяті з даних FRED, CBOE та S&P Global. Він має бюджет у 20 викликів інструментів на місяць, розподілених між чотирма операціями — перевірка касового стану, перегляд фінансових записів, аналіз ринкових умов та прогнозування грошових потоків — і має обрати одну з трьох дій: закрити звітний період (звірка), запитати фінансування (власний або позиковий капітал зі стохастичними результатами) або пропустити хід. Основним обмеженням є те, що залишок грошових коштів компанії повинен залишатися невід'ємним на кожному кроці; порушення завершує епізод з нульовим результатом. За умови виживання агент максимізує кінцеву оцінку підприємства за формулою Rev_T × 5 + Cash_T − 5,000 × N_tools, яка явно штрафує за надмірне використання інструментів.
Було оцінено одинадцять LLM, включаючи Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B та Qwen3.5-9B, разом із базованим на експертах-людях рівнем, підтвердженим двома професіоналами у сфері фінансів із досвідом 8 та 14 років відповідно.
Ключові ідеї
- Показники виживання сильно різняться залежно від моделі: Qwen3.5-9B виживає у 80% запусків, Gemini-3.1-Pro — у 50%, Claude-Haiku-4.5 та GLM-5 — по 20% кожна, а GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B та Mixtral-8x7B — по 0%. Загальний середній показник LLM становить 26%.
- Більші моделі не обов'язково перевершують менші: Qwen3.5-9B (9 млрд параметрів, 80% виживання, кінцева оцінка $78,8 млн) рішуче перемагає Qwen3.5-397B (397 млрд параметрів, 20% виживання) та GPT-5.4 (0% виживання).
- Розрив з людьми величезний: базовий показник людини становить 100% виживання та $152,2 млн ± $29,6 млн кінцевої оцінки; середній показник LLM — $28,2 млн при 26% виживання.
- Закриття звітного періоду є критичним вузьким місцем: екс перти-люди закривають книги (проводять звірку) у 94,3% кроків; середній показник LLM становить 19,3%. Це дія, яка створює достовірну фінансову звітність і дозволяє приймати раціональні подальші рішення.
- Збір інформації без дії є смертельним: Qwen3.5-397B часто використовує інструменти аналізу ринку та прогнозування протягом усієї симуляції, але майже ніколи не закриває книги (0,0% закриття) і майже ніколи не запитує фінансування, гинучи від вичерпання коштів, попри те, що «знає», що відбувається.
- Штраф за бюджет інструментів має значення: формула підрахунку балів активно карає агентів, які компульсивно перевіряють, а не діють, — це обмеження, що відображає реальну альтернативну вартість.
Що витримує критику, а що ні
Дизайн із двома цілями — виживання як жорстке обмеження плюс кінцева оцінка — є одним із найсильніших рішень у нещодавніх бенчмарках агентів. Це відображає те, як насправді працюють фінансові директори: ви не можете оптимізувати зростання, якщо у вас закінчилися гроші. Анонімізація календарних дат та назв компаній запобігає моделям підбирати шаблони за запам'ятованими історичними результатами, що є справжнім методологічним покращенням порівняно з фінансовими бенчмарками, які використовують реальні тікери та дати.
Таксономія режимів відмови, яку автори ідентифікують через тематичні дослідження, є переконливою: GPT-5.4 досягає 99,1% успішних кроків (що означає, що вона вчиняє дію на кожному кроці, нічого не роблячи), тоді як Qwen3.5-397B плутає аналіз із дією. Це поведінково різні режими відмови, що потребують різних засобів виправлення.
У чому я менш впевнений: стохастичне макросередовище використовує гауссівський шум для наближення ринкових потрясінь, що самі автори визнають недостатнім для відтворення подій типу «чорний лебідь» або людської ірраціональності. Бюджет інструментів у 20 викликів на місяць також є дещо довільним — реальні фінансові директори не стикаються з таким обмеженням швидкості запитів до власної пам'яті, що ставить питання про те, чи вимірює бенчмарк довгострокове фінансове судження чи щось ближче до RAG в умовах дефіциту ресурсів. Структура з одним агентом є ще одним явним обмеженням, яке називають автори: реальні CFO працюють у ієрархіях контролерів, FP&A-аналітиків та команд казначейства, і стаття не намагається це симулювати.
Висновок про те, що розмір моделі не прогнозує виживання, вражає і, ймовірно, є справжнім, але механізм пояснено недостатньо. Автори зазначають це, не розкриваючи повністю, чи є це провалом дотримання інструкцій, когерентності довгого контексту чи калібрування ризиків.
Чому це важливо для фінансового ШІ
Дія закриття звітного періоду в EnterpriseArena — це, по суті, твердження balance у Beancount та крок звірки реєстру — момент, коли агент фіксує достовірний погляд на фінансовий стан перед дією. Результат про те, що LLM пропускають це у 80% випадків, безпосередньо корелює з проблемою безпеки зворотного запису (write-back safety): агент, який уникає звірки перед дією, — це агент, який діє на основі застарілого або галюцинованого стану. Для автоматизації Beancount це свідчить про те, що крок звірки має бути обов’язковим і таким, що піддається перевірці — а не опціональним — у будь-якому циклі агента.
132-місячний горизонт також прямо аналогічний багаторічному управлінню реєстром. Висновок про те, що стійка ситуаційна обізнаність погіршується з часом, — це те саме погіршення, яке ми очікували б від агента Beancount, що керує п’ятирічною історією транзакцій: навіть якщо агент має всі дані в контексті, він може не діяти на їх основі злагоджено на 60-му місяці. Це вказує на те, що періодичні примусові контрольні точки звірки — а не просто реактивні запити — є необхідними в довготривалих сесіях агентів Beancount.
Пастка збору інформації, в яку потрапляє Qwen3.5-397B, є корисним застереженням для розробників: агенти, оснащені багатьма інструментами пошуку, можуть віддавати перевагу пошуку замість прийняття зобов’язань, особливо коли ціна неправильної дії (пошкодження реєстру) є високою. Обмеження бюджету інструментів, подібні до тих, що використовує EnterpriseArena, можуть допомогти забезпечити дисципліну дій у Beancount-агентах із функцією зворотного запису.
Що почитати далі
- EcoGym (arXiv:2602.09514) — комплементарний довгостроковий економічний бенчмарк у середовищах Vending, Freelance та Operation протягом 1000+ кроків; жодна модель не домінує у всіх трьох, що свідчить про те, що режими відмови в EnterpriseArena не є специфічними для одного дизайну бенчмарка.
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — переформульовує дизайн робочого процесу як пошук у просторі коду з використанням MCTS та зворотного зв'язку від LLM; якщо EnterpriseArena показує, що вручну розроблена поведінка агентів зазнає невдачі, AFlow є очевидним наступним кроком для автоматичного виявлення кращих конвеєрів.
- ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — фундаментальна база для навчання та оцінки використання інструментів; розуміння того, як поведінка виклику інструментів вивчається в ToolLLM, прояснює, чи є невдача з уникненням дій в EnterpriseArena проблемою навчання чи проблемою промптингу.
