Преминете към основното съдържание

Могат ли LLM агентите да бъдат финансови директори? 132-месечната симулация на EnterpriseArena разкрива голяма пропаст

· 7 минути четене
Mike Thrift
Mike Thrift
Marketing Manager

Най-амбициозният въпрос във финансовия ИИ в момента не е „може ли един LLM да отговори на въпрос за баланс?“, а „може ли един LLM да управлява парите на компанията във времето, без те да свършат?“ Изследването на Yi Han и др. Могат ли LLM агентите да бъдат финансови директори? (arXiv:2603.23638) изгражда EnterpriseArena, за да тества точно това, и отговорът е: едва ли, и то не по начините, които бихте очаквали.

Документът

2026-07-11-can-llm-agents-be-cfos-enterprisearena-resource-allocation-benchmark

EnterpriseArena е 132-месечна (11-годишна) симулация на разпределение на ресурси на ниво финансов директор. Всяка стъпка представлява един месец. Агентът получава частични наблюдения върху финансите на фирмата, анонимизирани бизнес документи и макроикономически сигнали, извлечени от данни на FRED, CBOE и S&P Global. Той разполага с бюджет от 20 извиквания на инструменти на месец, разпределени между четири операции — проверка на касовата наличност, преглед на финансови записи, анализ на пазарните условия и прогнозиране на паричните потоци — и трябва да избере едно от три действия: приключване на книгите (равнение), искане на финансиране (собствен капитал или дълг, със стохастични резултати) или пропускане. Основното ограничение е, че паричното салдо на компанията трябва да остане неотрицателно във всеки времеви период; нарушението му прекратява епизода с резултат нула. При условие че оцелее, агентът максимизира крайната оценка на предприятието съгласно формулата Rev_T × 5 + Cash_T − 5,000 × N_tools, която изрично наказва прекомерната употреба на инструменти.

Бяха оценени единадесет LLM, включително Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B и Qwen3.5-9B, заедно с базисно ниво от експерти хора, валидирано от двама финансови професионалисти съответно с 8 и 14 години опит.

Ключови идеи

  • Процентите на оцеляване варират значително между моделите: Qwen3.5-9B оцелява в 80% от случаите, Gemini-3.1-Pro в 50%, Claude-Haiku-4.5 и GLM-5 по 20%, а GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B и Mixtral-8x7B в 0%. Общата средна стойност за LLM е 26%.
  • По-големите модели не превъзхождат надеждно по-малките: Qwen3.5-9B (9 милиарда параметъра, 80% оцеляване, 78,8 милиона долара крайна оценка) решително побеждава Qwen3.5-397B (397 милиарда параметъра, 20% оцеляване) и GPT-5.4 (0% оцеляване).
  • Разликата спрямо хората е голяма: базисното ниво на хората постига 100% оцеляване и крайна оценка от $152,2 млн. ± $29,6 млн.; средната стойност за LLM е $28,2 млн. при 26% оцеляване.
  • Приключването на книгите е критичното тясно място: експертите хора приключват книгите (извършват равнение) в 94,3% от времевите периоди; средната стойност за LLM е 19,3%. Това е действието, което създава реални финансови отчети и позволява рационални последващи решения.
  • Събирането на информация без действие е фатално: Qwen3.5-397B използва инструменти за пазарен анализ и прогнозиране с висока честота по време на симулацията, но почти никога не приключва книгите (0,0% степен на приключване) и почти никога не иска финансиране, умирайки от изчерпване на паричните средства, въпреки че „знае“ какво се случва.
  • Наказанието за бюджета за инструменти има значение: формулата за оценяване активно наказва агенти, които компулсивно проверяват, вместо да действат — ограничение, което отразява реалните алтернативни разходи.

Какво се потвърждава — и какво не

Дизайнът с двойна цел — оцеляване като строго ограничение плюс крайна оценка — е един от най-силните избори в съвременните бенчмаркове за агенти. Той отразява начина, по който реално работят финансовите директори: не можете да оптимизирате растежа, ако нямате пари. Анонимизирането на календарните дати и идентичността на компаниите пречи на моделите да разпознават модели въз основа на запаметени исторически резултати, което е истинско методологично подобрение спрямо финансовите бенчмаркове, използващи реални борсови кодове и дати.

Таксономията на режимите на отказ, която авторите идентифицират чрез казуси, е достоверна: GPT-5.4 постига 99,1% процент на пропускане (което означава, че предприема действие в почти всяка стъпка, като не прави нищо), докато Qwen3.5-397B бърка анализа с действие. Това са поведенчески различни режими на отказ с различни решения.

Това, в което съм по-малко убеден: стохастичната макросреда използва гаусов шум за апроксимация на пазарни шокове, за който самите автори признават, че не може да репликира събития тип „черен лебед“ или човешката ирационалност. Бюджетът от 20 извиквания на инструменти на месец също е донякъде произволен — реалните финансови директори не се сблъскват с такова ограничение върху собствената си памет, което повдига въпроса дали бенчмаркът измерва дългосрочна финансова преценка или нещо по-близко до RAG под натиск от ресурси. Структурата с един агент е друго изрично ограничение, споменато от авторите: реалните финансови директори работят в йерархии от контрольори, FP&A анализатори и екипи за управление на парични средства, а документът не се опитва да симулира това.

Констатацията, че размерът на модела не предсказва оцеляването, е поразителна и вероятно реална, но механизмът не е добре обяснен. Авторите го отбелязват, без напълно да анализират дали става въпрос за неуспех при следване на инструкции, кохерентност в дълъг контекст или калибриране на риска.

Защо това е важно за финансовия ИИ

Действието за приключване на книгите в EnterpriseArena е по същество проверката balance в Beancount и стъпката за равнение на главната книга — моментът, в който агентът се ангажира с реален поглед върху финансовото състояние, преди да действа. Констатацията, че LLM пропускат това в 80% от случаите, се пренася директно върху проблема с безопасността при записване (write-back safety): агент, който избягва равнението преди действие, е агент, който действа въз основа на остаряло или халюцинирано състояние. За автоматизацията с Beancount това предполага, че стъпката на равнение трябва да бъде задължителна и проверима — а не незадължителна — във всеки цикъл на агента.

132-месечният хоризонт също е пряко аналогичен на многогодишното управление на главната книга. Установяването, че устойчивата ситуационна осведоменост се влошава с времето, е същото влошаване, което бихме очаквали от агент на Beancount, управляващ петгодишна история на транзакциите: дори ако агентът разполага с всички данни в контекста, той може да не действа кохерентно в 60-ия месец. Това предполага, че периодичните принудителни контролни точки за равнение — а не само реактивните запитвания — са необходими в дълготрайните сесии на агенти в Beancount.

Капанът за събиране на информация, в който попада Qwen3.5-397B, е полезно предупреждение при проектирането: агенти, оборудвани с много инструменти за извличане, могат да предпочетат извличането пред ангажираността, особено когато цената на грешно действие (корупция на главната книга) е висока. Ограниченията в бюджета за инструменти, подобни на тези в EnterpriseArena, биха могли да помогнат за налагане на дисциплина в действията при Beancount агенти за записване на данни.

Какво да прочетете след това

  • EcoGym (arXiv:2602.09514) — допълващ бенчмарк за икономика с дълъг хоризонт в среди за търговия, свободна практика и операции над 1000+ стъпки; нито един модел не доминира и в трите, което предполага, че режимите на отказ в EnterpriseArena не са специфични само за един дизайн на бенчмарк.
  • AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — преформулира дизайна на работния процес като търсене в кодово пространство с MCTS и обратна връзка от LLM; ако EnterpriseArena показва, че ръчно проектираното поведение на агентите се проваля, AFlow е очевидната следваща стъпка за автоматично откриване на по-добри тръбопроводи.
  • ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — фундаменталната рамка за обучение и оценка на използването на инструменти; разбирането на това как се учи поведението за извикване на инструменти в ToolLLM изяснява дали неуспехът чрез избягване на действие в EnterpriseArena е проблем на обучението или на подканите (prompting).