Können LLM-Agenten CFOs sein? EnterpriseArenas 132-monatige Simulation deckt eine große Lücke auf
Die ambitionierteste Frage im Bereich Finanz-KI lautet derzeit nicht: „Kann ein LLM eine Frage zu einer Bilanz beantworten?“, sondern: „Kann ein LLM das Geld eines Unternehmens über einen längeren Zeitraum verwalten, ohne dass es ausgeht?“ Yi Han et al. bauen in Can LLM Agents Be CFOs? (arXiv:2603.23638) EnterpriseArena auf, um genau das zu testen, und die Antwort lautet: kaum, und nicht so, wie man es erwarten würde.
Die Studie
EnterpriseArena ist eine 132-monatige (11-jährige) Simulation der Ressourcenallokation auf CFO-Ebene. Jeder Zeitschritt entspricht einem Monat. Der Agent erhält unvollständige Beobachtungen der Finanzdaten auf Unternehmensebene, anonymisierte Geschäftsdokumente und makroökonomische Signale aus FRED-, CBOE- und S&P-Global-Daten. Er verfügt über ein Budget von 20 Tool-Aufrufen pro Monat, verteilt auf vier Operationen – Überprüfung der Cash-Position, Durchsicht von Finanzunterlagen, Analyse der Marktbedingungen und Prognose von Cashflows – und muss eine von drei Aktionen wählen: die Bücher schließen (Abgleich/Reconciliation), Finanzierung beantragen (Eigen- oder Fremdkapital, mit stochastischen Ergebnissen) oder abwarten. Die primäre Einschränkung besteht darin, dass der Kassenbestand des Unternehmens zu jedem Zeitschritt nicht negativ sein darf; ein Verstoß beendet die Episode mit einer Punktzahl von Null. Unter der Bedingung des Überlebens maximiert der Agent die Endbewertung des Unternehmens nach der Bewertungsformel Rev_T × 5 + Cash_T − 5.000 × N_tools, die übermäßigen Tool-Einsatz explizit bestraft.
Elf LLMs wurden evaluiert, darunter Gemini-3.1-Pro, Claude-Haiku-4.5, GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Qwen3.5-397B und Qwen3.5-9B, zusammen mit einer menschlichen Experten-Baseline, die von zwei Finanzfachleuten mit 8 bzw. 14 Jahren Erfahrung validiert wurde.
Kernerkenntnisse
- Überlebensraten variieren stark zwischen den Modellen: Qwen3.5-9B überlebt 80 % der Durchläufe, Gemini-3.1-Pro 50 %, Claude-Haiku-4.5 und GLM-5 jeweils 20 %, und GPT-5.4, DeepSeek-V3.1, Llama-3.3-70B, Mistral-Small-24B sowie Mixtral-8x7B jeweils 0 %. Der Gesamtdurchschnitt der LLMs liegt bei 26 %.
- Größere Modelle schneiden nicht zuverlässig besser ab als kleinere: Qwen3.5-9B (9 Mrd. Parameter, 80 % Überleben, 78,8 Mio. $ Endbewertung) schlägt Qwen3.5-397B (397 Mrd. Parameter, 20 % Überleben) und GPT-5.4 (0 % Überleben) deutlich.
- Der Abstand zu Menschen ist groß: Die menschliche Baseline erreicht 100 % Überleben und eine Endbewertung von 152,2 Mio. $ ± 29,6 Mio. $; der LLM-Durchschnitt liegt bei 28,2 Mio. $ bei 26 % Überleben.
- Der Buchabschluss ist der kritische Engpass: Menschliche Experten schließen die Bücher (Reconciliation) in 94,3 % der Zeitschritte ab; LLMs erreichen im Durchschnitt 19,3 %. Dies ist die Aktion, die verlässliche Finanzberichte erstellt und rationale Folgeentscheidungen ermöglicht.
- Informationsbeschaffung ohne Handeln ist tödlich: Qwen3.5-397B nutzt Marktanalysen und Prognosetools während der gesamten Simulation in hohem Maße, schließt aber fast nie die Bücher ab (0,0 % Abschlussrate) und beantragt fast nie Finanzierungen. Es scheitert an Cash-Erschöpfung, obwohl es „wusste“, was geschah.
- Die Strafe für das Tool-Budget zählt: Die Bewertungsformel bestraft Agenten aktiv, die zwanghaft prüfen, anstatt zu handeln – eine Einschränkung, die reale Opportunitätskosten widerspiegelt.
Was überzeugt – und was nicht
Das Design mit zwei Zielen – Überleben als harte Einschränkung plus Endbewertung – ist eine der stärksten Entscheidungen in aktuellen Agenten-Benchmarks. Es spiegelt wider, wie echte CFOs tatsächlich agieren: Man kann das Wachstum nicht optimieren, wenn einem das Geld ausgeht. Die Anonymisierung von Kalenderdaten und Unternehmensidentitäten verhindert, dass Modelle Muster aus gelernten historischen Ergebnissen erkennen, was eine echte methodische Verbesserung gegenüber Finanz-Benchmarks darstellt, die reale Ticker und Daten verwenden.
Die Taxonomie der Fehlermodi, die die Autoren durch Fallstudien identifizieren, ist glaubwürdig: GPT-5.4 erreicht eine Erfolgsquote von 99,1 % (was bedeutet, dass es in fast jedem Zeitschritt agiert, indem es nichts tut), während Qwen3.5-397B Analyse mit Handeln verwechselt. Dies sind verhaltenstypisch unterschiedliche Fehlermodi mit unterschiedlichen Abhilfemaßnahmen.
Wovon ich weniger überzeugt bin: Das stochastische Makro-Umfeld verwendet Gaußsches Rauschen, um Marktschocks zu approximieren, von denen die Autoren selbst einräumen, dass sie Black-Swan-Ereignisse oder menschliche Irrationalität nicht replizieren können. Das Tool-Budget von 20 Aufrufen pro Monat ist ebenfalls etwas willkürlich – echte CFOs unterliegen nicht dieser Art von Abfrageraten-Beschränkung für ihr eigenes Gedächtnis, was die Frage aufwirft, ob der Benchmark das langfristige finanzielle Urteilsvermögen oder eher „RAG unter Ressourcendruck“ misst. Die Einzelagenten-Struktur ist eine weitere explizite Einschränkung, die die Autoren nennen: Echte CFOs agieren innerhalb von Hierarchien aus Controllern, FP&A-Analysten und Treasury-Teams; das Paper versucht nicht, dies zu simulieren.
Die Feststellung, dass die Modellgröße das Überleben nicht vorhersagt, ist frappierend und wahrscheinlich zutreffend, aber der Mechanismus wird nicht gut erklärt. Die Autoren stellen dies fest, ohne vollständig zu klären, ob es sich um ein Versagen bei der Befolgung von Anweisungen, der Kohärenz bei langem Kontext oder der Risikokalibrierung handelt.
Warum dies für Finanz-KI wichtig ist
Die Buchabschluss-Aktion in EnterpriseArena entspricht im Wesentlichen der Beancount-balance-Assertion und dem Schritt des Kontoabgleichs (Reconciliation) – der Moment, in dem sich der Agent auf eine fundierte Sicht des Finanzstatus festlegt, bevor er handelt. Die Erkenntnis, dass LLMs dies in 80 % der Fälle überspringen, lässt sich direkt auf das Problem der Rückschreibsicherheit (Write-back Safety) übertragen: Ein Agent, der den Abgleich vor dem Handeln vermeidet, agiert auf veralteten oder halluzinierten Zuständen. Für die Beancount-Automatisierung deutet dies darauf hin, dass der Abgleichsschritt in jeder Agenten-Schleife obligatorisch und verifizierbar sein sollte – nicht optional.
Der 132-monatige Horizont ist auch direkt analog zur mehrjährigen Buchführung. Die Feststellung, dass das dauerhafte Situationsbewusstsein mit der Zeit abnimmt, ist dieselbe Verschlechterung, die wir bei einem Beancount-Agenten erwarten würden, der eine fünfjährige Transaktionshistorie verwaltet: Selbst wenn der Agent alle Daten im Kontext hat, agiert er im Monat 60 möglicherweise nicht mehr kohärent. Dies legt nahe, dass in lang laufenden Beancount-Agenten-Sitzungen periodische, erzwungene Abgleichspunkte notwendig sind – und nicht nur reaktive Abfragen.
Die Falle der Informationsbeschaffung, in die Qwen3.5-397B tappt, ist eine nützliche Design-Warnung: Agenten, die mit vielen Retrieval-Tools ausgestattet sind, bevorzugen möglicherweise die Recherche gegenüber der Festlegung, insbesondere wenn die Kosten einer falschen Aktion (Korruption des Hauptbuchs) hoch sind. Tool-Budget-Beschränkungen, wie sie EnterpriseArena verwendet, könnten helfen, die Handlungsdisziplin bei Beancount-Write-back-Agenten durchzusetzen.
Was Sie als Nächstes lesen sollten
- EcoGym (arXiv:2602.09514) – komplementärer Langzeit-Wirtschafts-Benchmark über Vending-, Freelance- und Operation-Umgebungen mit mehr als 1.000 Schritten; kein Modell dominiert in allen drei Bereichen, was darauf hindeutet, dass die Fehlermodi in EnterpriseArena nicht spezifisch für ein Benchmark-Design sind.
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 Oral) – formuliert Workflow-Design als Suche im Code-Raum mit MCTS und LLM-Feedback neu; wenn EnterpriseArena zeigt, dass manuell entworfene Agenten-Verhaltensweisen scheitern, ist AFlow der offensichtliche nächste Schritt, um bessere Pipelines automatisch zu entdecken.
- ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) – das grundlegende Trainings- und Evaluierungs-Framework für den Einsatz von Tools; zu verstehen, wie Tool-Aufruf-Verhalten in ToolLLM gelernt wird, klärt, ob das Versagen durch Handlungsvermeidung in EnterpriseArena ein Trainings- oder ein Prompting-Problem ist.
