FinMaster-Benchmark: Warum LLMs 96 % bei Finanzkompetenz, aber nur 3 % bei der Erstellung von Abschlüssen erreichen
Das FinMaster-Paper landete direkt nach ReAct in meiner Leseliste. Wenn es bei ReAct darum geht, wie Agenten entscheiden, wann sie handeln, stellt FinMaster eine schwierigere Frage: Wie gut schneiden die besten heutigen LLMs bei den eigentlichen Buchhaltungs-Workflows ab, die diese Agenten ausführen müssen? Eingereicht im Mai 2025, ist es der erste Benchmark, den ich gesehen habe, der die gesamte Pipeline – Finanzkompetenz, Buchhaltung, Wirtschaftsprüfung und Beratung – in einem kohärenten Evaluierungsrahmen abdeckt.
Das Paper
Jiang et al. führen FinMaster (arXiv:2505.13533) ein, einen dreiteiligen Benchmark zur Bewertung von LLMs in Finanz-Workflows. Die erste Komponente, FinSim, ist ein synthetischer Datengenerator, der fünf Unternehmenstypen simuliert und Hauptbuchtransaktionen erzeugt – sowohl korrekte als auch bewusst fehlerhafte –, um Testszenarien ohne Datenschutzbedenken der realen Welt zu erstellen. Die zweite Komponente, FinSuite, b ündelt 183 Aufgaben aus den Bereichen Finanzkompetenz, Buchhaltung, Wirtschaftsprüfung und Beratung in verschiedenen Schwierigkeitsgraden. Die dritte Komponente, FinEval, bietet eine einheitliche Bewertungsschnittstelle. Zusammen bilden sie nach Angaben der Autoren den ersten Benchmark, der die gesamte Finanz-Pipeline mit unendlicher, datenschutzkonformer Datengenerierung abdeckt – eine Behauptung, die im Vergleich zu statischen Vorgängern wie FinBen und FinanceBench standhält.
Kernideen
- Der Abgrund bei Komplexität: Modelle erreichen durchschnittlich ca. 96 % bei der Finanzkompetenz (Lesen von Bilanzen, Gewinn- und Verlustrechnungen), fallen dann aber auf 40–60 % bei einfachen Buchhaltungskalkulationen, auf unter 20 % bei mehrstufigen Buchhaltungsaufgaben und auf lediglich 3 % bei der Erstellung von Finanzabschlüssen. Lesekompetenz und Rechenfähigkeit sind nicht dieselbe Fertigkeit.
- Fehlerfortpflanzung ist gravierend: Bei Beratungsaufgaben erreichten Berechnungen einzelner Kennzahlen eine durchschnittliche Genauigkeit von 58 %; mehrstufige Szenarien, die diese Berechnungen verketten, fielen auf 37 % – ein Rückgang um 21 Punkte durch das Summieren kleiner Fehler.
- Die Rangliste ist an der Spitze eng beieinander: o3-mini (0,73 Durchschnitt), Claude-3.7-Sonnet (0,72) und DeepSeek-V3-2503 (0,70) liegen nah beieinander, was darauf hindeutet, dass der Benchmark anspruchsvoll ist, aber noch keine unüberwindbare Grenze darstellt.
- Buchhaltung ist der schwierige Bereich: Über alle sieben evaluierten Modelle hinweg reichten die Buchhaltungswerte nur von 0,04 bis 0,35 – weit unter jeder anderen Kategorie. Eine Quote von 3 % bei der Abschlusserstellung bedeutet, dass LLMs derzeit noch nicht zuverlässig ein Transaktionsjournal in einen kohärenten Finanzabschluss synthetisieren können.
- Reasoning-Modelle helfen nur marginal: o3-mini führt insgesamt, aber nicht entscheidend. Chain-of-Thought-Reasoning ist real, kann aber die 93-Punkte-Lücke zwischen Finanzkompetenz und Abschlusserstellung nicht schließen.
- FinSim ermöglicht Stresstests in großem Maßstab: Frühere Benchmarks verwenden statische, feste Datensätze, die anfällig für Kontamination durch Trainingsdaten sind. FinMaster kann bei Bedarf neue Szenarien generieren, was entscheidend ist, um zu untersuchen, ob Modelle generalisieren oder lediglich auswendig lernen.
Was Bestand hat – und was nicht
Das Kernergebnis – dass mehrstufiges finanzielles logisches Schlussfolgern drastisch abbaut – ist glaubwürdig und entspricht Mustern aus LOG-001 (FinBen) und LOG-002 (Toolformer). Ich halte das Ergebnis zur Fehlerfortpflanzung für fundiert; es ist strukturell ähnlich zu dem, was in jeder arithmetischen Kette passiert. Der FinSim-Generator ist ein echter methodischer Beitrag: Ein Benchmark, der frische Szenarien generieren kann, widersteht dem Problem des Auswendiglernens, das statische Finanzdatensätze plagt.
Weniger überzeugt bin ich von der Anzahl der Aufgaben: 183 Aufgaben sind dünn für einen Benchmark, der eine ganzheitliche Abdeckung beansprucht. Fünfunddreißig Wirtschaftsprüfungsaufgaben können einen so breiten Bereich wie die Finanzprüfung nicht charakterisieren, in der reale Fehlertaxonomien hunderte von Einträgen haben. Das Paper reduziert den gesamten Bereich auf 12 grundlegende Fehlertypen, was die Heterogenität tatsächlicher Prüfungsfeststellungen verschleiert.
Der einzelne aggregierte Score der Rangliste verbirgt zudem wichtige bereichsübergreifende Muster. Wirtschaftsprüfung und Beratung weisen sehr unterschiedliche Profile je nach Modell auf, und ihre Mittelwertbildung ergibt eine Zahl, die zwar leicht zu zitieren, aber schwer in Handlungen umzusetzen ist.
Die Einschränkung durch synthetische Daten ist ein zweischneidiges Schwert. FinSim erzeugt saubere, gut strukturierte Hauptbuchdaten. Reale Buchhaltungssysteme schleppen jahrzehntelange Legacy-Kodierungen, Rundungsartefakte bei Währungen und außerplanmäßige Anpassungen mit sich herum, die kein Simulator erfasst. Ein Wert von 3 % bei der synthetischen Abschlusserstellung ist ernüchternd; dieselbe Messung bei den ungeordneten Büchern eines echten Unternehmens wäre wahrscheinlich noch deprimierender. Das Paper ist zudem rein textbasiert – die Autoren räumen die multimodale Lücke ein, messen sie aber nicht. Die meiste Buchhaltungsarbeit findet tatsächlich in gescannten PDFs und Tabellenkalkulationen statt.
Warum dies für Finanz-KI wichtig ist
Dies ist das unmittelbar relevanteste Paper, das ich seit FinBen für die Agenda von Bean Labs gelesen habe. Der Anwendungsfall von Beancount ist im Wesentlichen eine Teilmenge dessen, was FinMaster evaluiert: Buchhaltung auf Transaktionsebene, mehrstufige Berechnungen und Berichtserstellung. Die 3 % bei der Erstellung von Abschlüssen sind eine ernüchternde Zahl. Sie zeigt mir, dass selbst mit einem gut konzipierten ReAct-Agenten-Gerüst die Fähigkeit des zugrunde liegenden Modells, eine korrekte Beancount-Bilanz aus einem Transaktionsjournal zu erstellen, ohne spezialisiertes Fine-Tuning oder Retrieval-Scaffolding unzuverlässig ist.
Das Ergebnis zur Fehlerfortpflanzung ist direkt relevant für die Sicherheit bei Rückschreibevorgängen. Wenn eine Kette von Beratungsaufgaben zwischen Schritt eins und Schritt zwei 21 Genauigkeitspunkte verliert, dann summiert ein autonomer Beancount-Agent, der eine dreistufige Abstimmung durchführt, die Fehler in jeder Phase. Dies ist ein starkes Argument dafür, Agentenaufgaben in kleinstmögliche atomare Operationen zu zerlegen und Zwischenergebnisse zu verifizieren, anstatt sich auf End-to-End-LLM-Reasoning zu verlassen.
FinSim deutet zudem eine konkrete Richtung für Bean Labs an: Ein Beancount-spezifischer Transaktionssimulator könnte gelabelte Testfälle generieren, um Modelle für Hauptbuchoperationen zu evaluieren und zu optimieren. Die Architektur ist bereits vorhanden; der Bereich muss lediglich portiert werden.
Was Sie als Nächstes lesen sollten
- Financial Statement Analysis with Large Language Models (Alex Kim, Maximilian Muhn, Valeri Nikolaev; arXiv:2407.17866) – testet die Fähigkeit von GPT-4, die Gewinnentwicklung aus Finanzabschlüssen vorherzusagen, und erreicht dabei Gleichstand mit spezialisierten ML-Modellen; ein nützlicher Gegenpunkt zu den düsteren Zahlen von FinMaster bei der Abschlusserstellung.
- FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) – eine detailliertere Wirtschaftsprüfungs-Evaluierung mit logischem Schlussfolgern über mehrere Dokumente hinweg; ergänzt die spärliche Abdeckung von FinMaster mit nur 35 Prüfungsaufgaben.
- AuditBench: A Benchmark for Large Language Models in Financial Statement Auditing (Springer 2025) – kombiniert synthetisierte Transaktionsdaten mit realen Finanztabellen, um Fehlererkennung und -erklärung zu testen; methodisch direkt vergleichbar mit dem Wirtschaftsprüfungsmodul von FinMaster.
