FinAuditing: LLMs erzielen unter 14 % bei realen SEC-XBRL-Prüfungsaufgaben
FinAuditing prüft LLMs anhand der strukturierten Komplexität realer SEC-XBRL-Einreichungen – nicht anhand der polierten QA-Paare, die die Finanz-NLP-Bestenlisten dominieren. Ich lese es gerade, weil die Audit-Agenda von Bean Labs immer wieder auf eine Frage zurückkommt, die bestehende Benchmarks nicht beantworten können: Kann ein Modell eine gesamte strukturierte Einreichung im Speicher behalten und ihre interne Konsistenz verifizieren?
Das Paper
Wang et al. führen FinAuditing ein, einen Benchmark mit 1.102 Instanzen aus 218 XBRL-Einreichungen bei SEC EDGAR, der Fehlertypen abdeckt, die vom XBRL US Data Quality Committee (DQC) katalogisiert wurden. XBRL ist das maschinenlesbare Format, das die SEC für alle Einreichungen börsennotierter Unternehmen vorschreibt; jede Einreichung bündelt ein Instanzdokument (gemeldete Zahlen), ein Taxonomie-Schema (gültige Buchhaltungskonzepte) und vier Linkbases – Berechnung, Präsentation, Definition und Label –, die festlegen, wie Konzepte zueinander in Beziehung stehen. Der Benchmark operationalisiert drei Teilaufgaben der Prüfung: Financial Semantic Matching (FinSM, Abrufen des korrekten Taxonomie-Konzepts für einen gemeldeten Fakt), Financial Relationship Extraction (FinRE, Klassifizierung der Beziehung zwischen zwei Taxonomie-Knoten) und Financial Mathematical Reasoning (FinMR, Verifizierung, ob gemeldete Zahlen die taxonomie-definierten Berechnungsregeln erfüllen). Instanzen umfassen durchschnittlich 33.848 Token – was an oder über der effektiven Kontextgrenze vieler Open-Source-Modelle liegt – und alle 13 Modelle werden Zero-Shot getestet.
Kernaussagen
- FinSM ist im Wesentlichen das Abrufen der Taxonomie: Finden Sie für einen Fakt in der Einreichung das richtige US-GAAP-Konzept. DeepSeek-V3 führt das Feld mit einer Trefferrate (Hit Rate@20) von 12,42 % an – weniger als einer von acht richtigen Tipps bei der Auswahl aus 20 Kandidaten. GPT-4o schafft 9,09 %.
- FinRE (Klassifizierung von Linkbase-Beziehungen) ist die einfachste Aufgabe: GPT-4o erreicht eine Genauigkeit von 91,82 % und einen Macro F1-Wert von 90,09. Aber Qwen3-32B und Fino1-14B – beide als finanztauglich vermarktet – erzielen 0,00 % und scheitern offenbar am Beziehungstyp CombinationErr.
- FinMR ist brutal: Fino1-14B führt mit 13,86 % Genauigkeit; die meisten Modelle liegen im einstelligen Bereich. Die Fehleranalyse führt 70–83 % der Fehlschläge auf Rechenfehler bei mehrstufigen Berechnungsregeln zurück, wobei strukturelle Formatierungsfehler je nach Modell 9–71 % ausmachen.
- Die Quelldaten sind 4.545 DQC-Fehlermeldungen aus realen Einreichungen (2020–2024) – keine synthetischen adversarialen Beispiele. Der Benchmark wählt die 9 häufigsten Fehlertypen aus, die 60,33 % der realen DQC-Verstöße abdecken.
- Domänenspezifische Modelle (Fino1-14B, FinR1) schlagen allgemeine Großmodelle nicht systematisch; Fino1-14B führt nur bei FinMR, und selbst dort liegen seine 13,86 % kaum über dem Grundrauschen.
Was Bestand hat – und was nicht
Der Benchmark ist gerade deshalb wertvoll, weil er dem QA-Paar-Format entkommt: Erfolg erfordert das Verständnis von Linkbase-Beziehungen, nicht nur das Abgleichen einer Frage mit einem Textabschnitt. Die Verankerung der Instanzkonstruktion in DQC-Verstößen macht sie reproduzierbar und direkt an den realen Prüfungsprozess gebunden.
Dennoch habe ich Vorbehalte. Die FinRE-Ergebnisse sind rätselhaft: GPT-4o bei 91,82 %, während domänentaugliche Modelle auf 0,00 % einbrechen, ist eine Varianz, die mit Sicherheit eher die Empfindlichkeit gegenüber Prompts und Format-Mismatches beim Output widerspiegelt als echtes logisches Denkvermögen. Das Paper testet alle Modelle Zero-Shot, ohne das Prompt-Format zu variieren oder Few-Shot-Baselines bereitzustellen, was es unmöglich macht, die 0,00 %-Werte eher der Intelligenz als Fehlern beim Parsen zuzuschreiben. Das für FinMR verwendete LLM-as-Judge-Framework führt eine weitere Ebene von Rauschen in der Bewertung ein.
Die Hauptbehauptung – „Genauigkeitsabfälle von 60–90 % über hierarchische Multi-Dokument-Strukturen“ – benötigt ebenfalls einen klareren Bezugspunkt. Es ist nicht offensichtlich, ob dies mit der menschlichen Leistung, Single-Dokument-Versionen derselben Aufgaben oder flachen (nicht hierarchischen) Varianten verglichen wird. Die Richtung stimmt, aber ohne diesen Ausgangswert ist die Größenordnung schwer zu interpretieren.
Warum dies für Finanz-KI wichtig ist
Beancount-Dateien sind kein XBRL, aber sie teilen die wesentlichen strukturellen Eigenschaften: einen hierarchischen Konten-Namensraum analog zum Taxonomie-Schema, Double-Entry-Beschränkungen, die ausgeglichen sein müssen analog zu Berechnungs-Linkbases, und typisierte Einträge, die auf kanonische Kategorien verweisen analog zum Konzept-Instanz-Abgleich. Der FinMR-Fehlermodus – Modelle, die Rechenfehler bei mehrstufigen Berechnungsregeln machen – ist genau das, was für die Beancount-Bilanzprüfung wichtig ist. Wenn GPT-4o nicht zuverlässig verifizieren kann, ob US-GAAP-Additionsbäume in einer XBRL-Einreichung korrekt summiert werden, kann man ihm fast sicher nicht zutrauen, komplexe Kontenhierarchien in einem Hauptbuch zu verifizieren, ohne die Arithmetik an ein externes Werkzeug (im PAL-Stil) auszulagern.
Die FinSM-Zahlen sind eine direkte Warnung für jeden Beancount-Agenten, der von Benutzern eingegebene Kontonamen oder Transaktionsbeschreibungen einem kanonischen Kontenplan zuordnet. Selbst das beste Modell ruft das richtige Konzept in weniger als 13 % der Fälle bei Rang 20 ab. Ranking-basiertes Retrieval ist ohne einen spezialisierten Retriever oder Fine-Tuning auf die Zieltaxonomie noch lange nicht produktreif.
Das ausbleibende Ergebnis für domänenspezifische Modelle ist aufschlussreich: Schiere Skalierung und strukturiertes Prompting bestimmen bei dieser Klasse von strukturierten Denkaufgaben immer noch stärker über die Ergebnisse als finanzielles Pretraining.
Was man als Nächstes lesen sollte
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) – die hierarchische XBRL-Linkbase-Struktur ist genau die Art von Graph-über-Dokumenten, die Microsofts GraphRAG anvisiert; lesenswert als architektonische Antwort auf die Retrieval-Fehler von FinAuditing.
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) – von sich überschneidenden Autoren, konzentriert sich auf die Zuordnung von Finanzfakten zu Taxonomie-Konzepten (die vorgelagerte Aufgabe vor dem Audit); ergänzt den Umfang von FinAuditing.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) – wenn Modelle Berechnungen nicht zuverlässig Zero-Shot verifizieren können, könnte die Antwort in formalen Verifizierungswerkzeugen liegen, die über die Aktionen der Agenten geschichtet werden, anstatt in besserem Prompting.
