Prejsť na hlavný obsah

Môžu byť LLM agenti finančnými riaditeľmi? 132-mesačná simulácia EnterpriseArena odhaľuje veľkú priepasť

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Najambicióznejšou otázkou vo finančnej AI v súčasnosti nie je „dokáže LLM odpovedať na otázku o súvahe?“, ale „dokáže LLM spravovať peniaze spoločnosti v priebehu času bez toho, aby mu došli?“ Štúdia Yi Hana a kol. s názvom Môžu byť LLM agenti finančnými riaditeľmi? (arXiv:2603.23638) vytvára prostredie EnterpriseArena, aby otestovala presne toto, a odpoveď znie: ledva a nie tak, ako by ste čakali.

Štúdia

2026-07-11-can-llm-agents-be-cfos-enterprisearena-resource-allocation-benchmark

EnterpriseArena je 132-mesačná (11-ročná) simulácia alokácie zdrojov na úrovni finančného riaditeľa (CFO). Každý časový krok predstavuje jeden mesiac. Agent dostáva čiastočné pozorovania o financiách na úrovni firmy, anonymizované obchodné dokumenty a makroekonomické signály čerpané z údajov FRED, CBOE a S&P Global. Má rozpočet 20 volaní nástrojov (tool calls) mesačne rozdelených medzi štyri operácie — overenie hotovostnej pozície, kontrola finančných záznamov, analýza trhových podmienok a prognózovanie hotovostných tokov — a musí si vybrať jednu z troch akcií: uzavrieť účtovné knihy (odsúhlasenie), požiadať o financovanie (vlastné imanie alebo dlh, so stochastickými výsledkami) alebo nič neurobiť (pass). Primárnym obmedzením je, že zostatok hotovosti spoločnosti musí zostať nezáporný v každom časovom kroku; porušenie ukončí epizódu so skóre nula. Pri zachovaní prežitia agent maximalizuje konečnú hodnotu podniku podľa vzorca Rev_T × 5 + Cash_T − 5 000 × N_tools, ktorý explicitne penalizuje nadmerné používanie nástrojov.

Bolo vyhodnotených jedenásť modelov LLM, vrátane Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B a Qwen3.5-9B, spolu s benchmarkom ľudského experta validovaným dvoma finančnými profesionálmi s 8 a 14-ročnými skúsenosťami.

Kľúčové myšlienky

  • Miera prežitia sa u jednotlivých modelov výrazne líši: Qwen3.5-9B prežije 80 % behov, Gemini-3.1-Pro 50 %, Claude-Haiku-4.5 a GLM-5 každý 20 %, a GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B a Mixtral-8x7B zhodne 0 %. Celkový priemer LLM je 26 %.
  • Väčšie modely spoľahlivo neprekonávajú tie menšie: Qwen3.5-9B (9 mld. parametrov, 80 % prežitie, konečná hodnota 78,8 mil. USD) rozhodne poráža Qwen3.5-397B (397 mld. parametrov, 20 % prežitie) a GPT-5.4 (0 % prežitie).
  • Odstup od ľudí je veľký: ľudský benchmark dosahuje 100 % prežitie a konečnú hodnotu 152,2 mil. USD ± 29,6 mil. USD; priemer LLM je 28,2 mil. USD s 26 % prežitím.
  • Uzávierka účtovných kníh je kritickým úzkym hrdlom: ľudskí experti uzatvárajú knihy (reconcile) v 94,3 % časových krokov; priemer LLM je 19,3 %. Toto je akcia, ktorá vytvára pravdivé finančné výkazy a umožňuje racionálne následné rozhodnutia.
  • Zhromažďovanie informácií bez akcie je fatálne: Qwen3.5-397B počas simulácie vo vysokej miere využíva nástroje na analýzu trhu a prognózovanie, ale takmer nikdy neuzatvára knihy (0,0 % miera uzávierky) a takmer nikdy nežiada o financovanie, pričom zaniká v dôsledku vyčerpania hotovosti napriek tomu, že „vie“, čo sa deje.
  • Penalizácia rozpočtu na nástroje je dôležitá: vzorec bodovania aktívne trestá agentov, ktorí nutkavo kontrolujú namiesto toho, aby konali, čo je obmedzenie, ktoré odráža skutočné náklady príležitosti.

Čo obstojí — a čo nie

Dvojitý cieľ dizajnu — prežitie ako pevné obmedzenie plus konečná hodnota — je jednou z najsilnejších volieb v nedávnom benchmarkingu agentov. Odráža to, ako skutoční finanční riaditelia v praxi fungujú: nemôžete optimalizovať rast, ak ste bez peňazí. Anonymizácia kalendárnych dátumov a identít spoločností bráni modelom v rozpoznávaní vzorov na základe zapamätaných historických výsledkov, čo je skutočné metodologické zlepšenie oproti finančným benchmarkom, ktoré používajú reálne tickery a dátumy.

Taxonómia zlyhaní, ktorú autori identifikujú prostredníctvom prípadových štúdií, je dôveryhodná: GPT-5.4 dosahuje 99,1 % mieru „pass“ (čo znamená, že v takmer každom časovom kroku vykoná akciu nerobenia ničoho), zatiaľ čo Qwen3.5-397B si mýli analýzu s akciou. Ide o behaviorálne odlišné spôsoby zlyhania s rôznymi riešeniami.

O čom som menej presvedčený: stochastické makroprostredie využíva Gaussov šum na aproximáciu trhových šokov, čo podľa priznania samotných autorov nedokáže replikovať udalosti typu „čierna labuť“ alebo ľudskú iracionalitu. Rozpočet nástrojov vo výške 20 volaní mesačne je tiež mierne ľubovoľný — skutoční finanční riaditelia nečelia takémuto obmedzeniu miery dopytov voči vlastnej pamäti, čo vyvoláva otázku, či benchmark meria dlhodobý finančný úsudok alebo skôr niečo ako RAG pod tlakom zdrojov. Štruktúra s jedným agentom je ďalším explicitným obmedzením, ktoré autori uvádzajú: skutoční finanční riaditelia pracujú v hierarchiách kontrolórov, analytikov FP&A a tímov pokladnice, čo sa táto práca nepokúša simulovať.

Zistenie, že veľkosť modelu nepredpovedá prežitie, je zarážajúce a pravdepodobne pravdivé, ale mechanizmus nie je dobre vysvetlený. Autori to konštatujú bez toho, aby plne rozobrali, či ide o zlyhanie pri dodržiavaní inštrukcií, koherenciu dlhého kontextu alebo kalibráciu rizika.

Prečo je to dôležité pre finančnú AI

Akcia uzatvárania kníh v EnterpriseArena je v podstate príkaz balance a krok odsúhlasenia účtovnej knihy v Beancounte — moment, kedy sa agent pred konaním zaviaže k pravdivému pohľadu na finančný stav. Zistenie, že LLM to v 80 % prípadov vynechávajú, priamo súvisí s problémom bezpečnosti spätného zápisu (write-back): agent, ktorý sa pred akciou vyhýba odsúhlaseniu, je agent, ktorý koná na základe zastaraného alebo halucinovaného stavu. Pre automatizáciu Beancountu to naznačuje, že krok odsúhlasenia by mal byť povinný a overiteľný — nie voliteľný — v akomkoľvek cykle agenta.

132-mesačný horizont je tiež priamo analogický s viacročnou správou účtovných kníh. Zistenie, že trvalé situačné povedomie sa časom zhoršuje, je rovnaká degradácia, akú by sme očakávali u agenta Beancount spravujúceho päťročnú históriu transakcií: aj keď má agent všetky dáta v kontexte, nemusí na ne v 60. mesiaci reagovať koherentne. To naznačuje, že v dlhodobých reláciách agentov Beancount sú potrebné periodické vynútené kontrolné body odsúhlasenia, nielen reaktívne dopytovanie.

Pasca zhromažďovania informácií, do ktorej padol Qwen3.5-397B, je užitočným varovaním pre dizajn: agenti vybavení mnohými nástrojmi na vyhľadávanie môžu uprednostňovať vyhľadávanie pred záväzkom, najmä ak sú náklady na nesprávnu akciu (poškodenie účtovnej knihy) vysoké. Obmedzenia rozpočtu nástrojov typu, aký používa EnterpriseArena, by mohli pomôcť vynútiť disciplínu v konaní u agentov pre spätný zápis do Beancountu.

Čo si prečítať ďalej

  • EcoGym (arXiv:2602.09514) — doplnkový benchmark pre dlhodobú ekonomiku v prostrediach Vending, Freelance a Operation počas viac ako 1 000 krokov; žiadny model nedominuje vo všetkých troch, čo naznačuje, že spôsoby zlyhania v EnterpriseArena nie sú špecifické len pre jeden dizajn benchmarku.
  • AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — preformulováva dizajn pracovných postupov ako vyhľadávanie v priestore kódu pomocou MCTS a spätnej väzby od LLM; ak EnterpriseArena ukazuje, že manuálne navrhnuté správanie agentov zlyháva, AFlow je zrejmým ďalším krokom k automatickému objavovaniu lepších procesov.
  • ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — základný rámec pre tréning a vyhodnocovanie používania nástrojov; pochopenie toho, ako sa správanie pri volaní nástrojov učí v ToolLLM, objasňuje, či je zlyhanie vo vyhýbaní sa akcii v EnterpriseArena problémom tréningu alebo promptingu.