EnterpriseArena lässt 11 LLMs eine 132-monatige CFO-Simulation durchlaufen, um Überlebensraten, Endbewertungen und Abschlussraten zu verfolgen. Nur Qwen3.5-9B überlebt 80 % der Durchläufe; GPT-5.4 und DeepSeek-V3.1 erreichen 0 %. Menschliche Experten erzielen 100 % Überleben bei 5-fachem Endwert. Der entscheidende Engpass: LLMs überspringen in 80 % der Fälle den Abgleich des Hauptbuchs und agieren auf veralteten Finanzdaten.
InvestorBench (ACL 2025) testet 13 LLM-Backbones im Backtesting von Aktien-, Krypto- und ETF-Handel anhand von kumulierter Rendite und Sharpe-Ratio – nicht anhand von QA-Genauigkeit. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR an; auf Finanzen spezialisierte Modelle erweisen sich bei Aktien als kontraproduktiv. Die Modellgröße sagt die Performance zuverlässiger voraus als domänenspezifisches Fine-Tuning.
Ein NeurIPS 2024 Spotlight-Paper untersucht drei LLM-basierte Zeitreihen-Vorhersagemethoden — OneFitsAll, Time-LLM und CALF — und stellt fest, dass das Entfernen des Sprachmodells die Genauigkeit in den meisten Fällen verbessert, bei einer bis zu 1.383-fachen Trainingsbeschleunigung. Für Finanz-KI-Anwendungen wie die Beancount-Kontostandsprognose schlagen leichtgewichtige, zweckgebundene Modelle konsequent zweckentfremdete LLMs.
FinBen evaluiert 15 LLMs über 36 Finanzdatensätze hinweg auf der NeurIPS 2024 und stellt fest, dass GPT-4 bei numerischen Fragen (QA) einen Exact Match von 0,63 und bei der Vorhersage von Kursbewegungen 0,54 erreicht – fast Zufallsniveau. Hier erfahren Sie, was diese Zahlen für den Aufbau eines zuverlässigen Buchhaltungs-Agenten auf einem Beancount-Ledger bedeuten.