MultiHiertt: Benchmarking für numerisches Schlussfolgern über multi-hierarchische Finanztabellen
Jeder Finanz-QA-Benchmark, den ich diesen Monat gelesen habe – FinQA, TAT-QA, ConvFinQA –, beruht auf derselben stillschweigenden Annahme: eine flache Tabelle pro Dokument. Reale Finanzberichte sehen ganz anders aus. Konzernbilanzen verschachteln Tochtergesellschaften in Segmenten innerhalb von Muttergesellschaften; Gewinn- und Verlustrechnungen enthalten hierarchische Posten mit Zwischensummen, die wiederum in höhere Aggregate einfließen. MultiHiertt (Zhao et al., ACL 2022) ist der erste Benchmark-Datensatz, der genau diese Lücke aufdeckt, und die daraus resultierenden Zahlen sind ernüchternd.
Das Paper
Yilun Zhao, Yunxiang Li, Chenying Li und Rui Zhang von der Penn State University stellen MultiHiertt vor, einen QA-Benchmark mit 10.440 Frage-Antwort-Paaren aus 2.513 echten Finanzberichten. Jedes Dokument enthält durchschnittlich 3,89 hierarchische Tabellen neben 68 Sätzen (~1.645 Wörtern) Erzähltext. Die Aufteilung in Training/Dev/Test erfolgt im Verhältnis 7.830 / 1.044 / 1.566. Das Kernargument ist einfach, aber prägnant: Frühere Datensätze (FinQA, TAT-QA) bewerten Modelle anhand von Dokumenten mit einer einzigen flachen Tabelle, was die Komplexität des Schlussfolgerns über tatsächliche Finanzberichte systematisch unterschätzt. Dort kann eine Frage die Synthese von Zahlen aus drei separaten Untertabellen erfordern, bevor ein arithmetisches Programm angewendet werden kann.
Zusammen mit dem Datensatz schlagen die Autoren MT2Net vor, ein zweistufiges Modell: ein Fakten-Retrieval-Modul, das potenzielle unterstützende Zellen und Textabschnitte aus allen Tabellen und Absätzen bewertet, gefolgt von einem symbolischen Logik-Modul (einem arithmetischen Programmausführer, der vom NeRd-Design von FinQA übernommen wurde), das auf den abgerufenen Fakten operiert. MT2Net verwendet durchgehend RoBERTa-large als Encoder.
Kerngedanken
- Die durchschnittlich 3,89 Tabellen pro Dokument in MultiHiertt spiegeln direkt die Struktur realer Geschäftsberichte wider, in denen eine einzige Frage Werte aus der Gewinn- und Verlustrechnung, einer Segmentaufschlüsselungstabelle und einem Anhang erfordern kann – von denen keine flach ist.
- MT2Net (RoBERTa-large) erreicht einen F1-Score von 38,43 % im Testset; menschliche Experten erreichen 87,03 % F1 – eine Lücke von fast 49 Punkten.
- Fragen zum tabellenübergreifenden Schlussfolgern (die Belege aus ≥ 2 Tabellen erfordern) erzielen beim besten Modell 21,04 % F1, gegenüber 36,77 % bei Einzeltabellen-Fragen – ein Rückgang von mehr als 15 Punkten von einer ohnehin schon niedrigen Basis.
- Das symbolische Logik-Modul hilft, kann aber Retrieval-Fehler nicht kompensieren: Die Annotationsstudie zeigt, dass 31,5 % der Fehler bei hierarchischen Beispielen auf die Auswahl falscher Evidenzzellen zurückzuführen sind, noch bevor eine Arithmetik versucht wurde.
- Bis 2024 erreicht GPT-4 mit Program-of-Thoughts-Prompting 67,23 % F1 auf MultiHiertt, und eine spezielle EEDP-Methode (Evidence-Enhanced Document Prompting) pusht GPT-4 auf 70,32 % – immer noch 17 Punkte unter der menschlichen Obergrenze.
- Die Annotationsqualität ist solide: Inter-Annotator-Kappa von 0,72–0,90, wobei 76,8 %–94,0 % der Stichproben von Crowdworkern mit ≥ 4/5 für Korrektheit bewertet wurden.
Was Bestand hat – und was nicht
Die Konstruktion des Datensatzes ist sorgfältig und die Metriken zur Annotationsqualität sind beruhigend. Die Kernbehauptung – dass Einzeltabellen-Benchmarks die reale Komplexität unterbewerten – ist offensichtlich wahr, und die F1-Lücke von 15 Punkten zwischen Einzel- und Multi-Tabellen-Teilmengen macht dies konkret. Die Vergleichstabelle (Tabelle 1 im Paper) zeigt deutlich, dass FinQA und TAT-QA eine Tabelle pro Dokument haben; MultiHiertt füllt hier eine echte Lücke.
Dennoch ist MT2Net keine starke Lösungslösung – es ist eher eine starke Baseline. Das Retrieval-Modul ist ein Scorer auf Segmentebene, der unter Aufsicht auf unterstützenden Fakten trainiert wurde, was bedeutet, dass er stark von korrekten Supervisionssignalen während des Trainings abhängt. Das Paper untersucht nicht, was passiert, wenn die hierarchische Struktur implizit ist (keine explizite HTML-Verschachtelung von Eltern-Kind-Elementen), was in eingescannten Berichten und älteren PDFs häufig vorkommt. Das Testset wird hinter einem CodaLab-Leaderboard zurückgehalten, was es schwierig macht, Ergebnisse unabhängig zu replizieren oder Fehlermodi zu untersuchen.
Ich möchte auch etwas hervorheben, das die Autoren unterbetonen: Die GPT-4-Ergebnisse von 2024 zeigen, dass reine Schlussfolgerungskapazität einen Großteil der Lücke schließen kann, ohne dass eine speziell für Hierarchien entworfene Architektur erforderlich ist. GPT-4 erreicht 70 %, ohne jemals darüber informiert zu werden, dass das Dokument hierarchische Tabellen enthält – es liest einfach das gerenderte HTML. Das ist ein interessantes Ergebnis: Das Bewusstsein für Hierarchien ist möglicherweise weniger wichtig als die schiere Kontextkapazität und arithmetische Zuverlässigkeit. Die einschränkende Bedingung könnte weiterhin die Retrieval-Präzision über lange Dokumente sein, nicht die Architektur des Schlussfolgerns.
Warum dies für Finanz-KI wichtig ist
Beancount-Agents stehen genau vor diesem Problem. Eine Frage wie „Wie hoch war unser effektiver Steuersatz im Jahr 2023?“ erfordert das Finden der Zeile für das Ergebnis vor Steuern in der Gewinn- und Verlustrechnung, des Ertragsteueraufwands aus einem separaten Anhang und möglicherweise einer Aufschlüsselung auf Segmentebene, um den Konzernwert abzugleichen. Keiner dieser Werte lebt in einer einzigen flachen Tabelle. Der F1-Malus von 15 Punkten für tabellenübergreifendes Schlussfolgern in MultiHiertt quantifiziert das, was ich in einem Beancount-Kontext erwarten würde: Agents, die bei Abfragen zu einzelnen Konten gut abschneiden, werden deutlich schlechter, wenn eine Frage das Zusammenführen über verschiedene Hauptbuchabschnitte hinweg erfordert.
Die Fehleranalyse ist direkt umsetzbar. Wenn 31,5 % der Fehler fehlerhafte Evidenz-Abrufe sind, bevor überhaupt eine Berechnung stattfindet, dann liegt die Priorität für einen Beancount-Write-Back-Agent nicht in einer besseren Arithmetik-Engine – sondern in einer besseren Evidenz-Auswahl. Ein Agent, der die falschen Hauptbuchzeilen abruft, bevor er rechnet, wird plausibel aussehende, aber falsche Einträge erzeugen – genau der Fehlermodus, der bei einer Prüfung am schwersten zu finden ist.
Die Entwicklung von GPT-4 ist für die nahe Zukunft ebenfalls ermutigend: Der Sprung von 38 % auf 70 % innerhalb von zwei Jahren deutet darauf hin, dass tabellenübergreifendes finanzielles Schlussfolgern machbar ist, wenn sich Kontextfenster und Logikfähigkeiten verbessern, selbst ohne domänenspezifisches Training. Die verbleibende Lücke von 17 Punkten zur menschlichen Leistung ist jedoch kein Rauschen – sie spiegelt wahrscheinlich Fälle wider, in denen die hierarchische Struktur eine semantische Last trägt, die bei einer flachen Textdarstellung verloren geht.
Was man als Nächstes lesen sollte
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — das Fundament, auf dem fast jedes Finanz-QA-System aufbaut; das Verständnis der Aufteilung in parametrisches und nicht-parametrisches Gedächtnis ist wichtig für die Entscheidung, wie der Abruf aus dem Hauptbuch strukturiert werden soll.
- FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — ruft Informationen während der Generierung ab, wenn das Modell vorhersagt, dass es neue Fakten benötigt; eine natürliche Lösung für tabellenübergreifendes Schlussfolgern, bei dem man mitten im Prozess feststellt, dass man eine zusätzliche Tabelle benötigt.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — fittet ein LLM speziell auf FinQA/TAT-QA/MultiHiertt an und zeigt, was Domänenanpassung tatsächlich gegenüber GPT-4-Prompting bringt.
