Zum Hauptinhalt springen

TAT-QA: Hybrid Table-Text QA Benchmark für logisches Schließen in Geschäftsberichten

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Ich lese TAT-QA heute, weil es an einer Schnittstelle liegt, die direkt für das relevant ist, was wir bauen: Fragen, die nur beantwortet werden können, indem man gleichzeitig über eine Tabelle und den umgebenden Text logisch schließt. In Beancount existiert jeder Ledger-Eintrag in einem Kontext – eine Tabellenzeile, die ohne das Memo, die Erzählung des Kontrahenten oder die Kontenrichtlinie, die erklärt, warum dieser Posten dort steht, keinen Sinn ergibt. TAT-QA, veröffentlicht auf der ACL 2021 von Zhu et al. aus dem NExT++ Labor der NUS, ist der Benchmark, der die NLP-Community zwang, sich diesem Problem direkt zu stellen.

Das Paper

2026-05-14-tat-qa-hybrid-tabular-textual-financial-question-answering

Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng und Tat-Seng Chua stellen TAT-QA (Tabular And Textual QA) vor, einen Datensatz mit 16.552 Fragen über 2.757 hybride Kontexte, die aus echten jährlichen Finanzberichten stammen. Jeder Kontext kombiniert eine semistrukturierte Tabelle mit mindestens zwei begleitenden Absätzen – genau die Struktur, die man in 10-K-Berichten findet, wo eine Umsatz-Tabelle neben der Erläuterung des Managements steht, was die Zahlen angetrieben hat. Fast alle Fragen erfordern Arithmetik: Addition, Subtraktion, Multiplikation, Division, Zählen, Vergleichen, Sortieren und Kompositionen aus mehreren Operationen.

Der Kernbeitrag ist zweifach: der Benchmark selbst und TAGOP, ein neues Modell, das die Aufgabe als Tagging von Belegen mit anschließendem symbolischem logischem Schließen behandelt. TAGOP verwendet einen Sequence Tagger über die verketteten Tabellenzellen und Textabschnitte, um zu identifizieren, welche Beweisstücke gesammelt werden müssen, und wendet dann einen festen Satz von Aggregationsoperatoren (Summe, Differenz, Produkt, Verhältnis, Anzahl usw.) an, um die endgültige Antwort zu berechnen. Keine neuronale Arithmetik – die Berechnung selbst wird immer an einen symbolischen Executor delegiert.

Kernideen

  • Die Identifizierung von Belegen ist der schwierige Teil, nicht die Arithmetik. Die Fehleranalyse von TAGOP schreibt etwa 55 % der Fehler einem falschen Tagging und 29 % fehlenden Belegen zu. Sobald man die richtigen Zellen und Abschnitte hat, macht der symbolische Executor selten einen Rechenfehler. Dies ist ein direktes Signal: Für Finanz-Agenten dominiert der Schritt des Retrievals und des Groundings.
  • Text-only-Modelle scheitern sofort. BERT-RC erreicht im Testset nur 18,7 % F1. NumNet+ V2, der beste numerische Reader vor TAT-QA, erreicht 46,9 % F1. Die rein tabellenbasierte TaPas-Baseline erzielt 22,8 % F1. Ein Modell, das Tabellen ohne Text liest – oder Text ohne Tabellen – ist für diesen Bereich disqualifiziert.
  • TAGOP erzielt 58,0 % F1 (50,1 % Exact Match), menschliche Experten erreichen 90,8 % F1 (84,1 % EM). Die F1-Lücke von 32,8 Punkten zum Zeitpunkt der Veröffentlichung war alarmierend. Dies bedeutete, dass selbst das beste System des Jahres 2021 weniger als zwei Drittel der Fragen beantwortet, die ein geschulter Analyst bewältigen kann.
  • Bis Ende 2024 zeigt das Leaderboard ein anderes Bild. Das Top-System, TAT-LLM (70B), erreicht 88,4 % F1 – nur 2,4 Punkte unter dem Menschen. TAT-LLM (7B) erreicht 82,88 % F1, und GPT-4 erreicht im Zero-Shot-Verfahren 79,71 % F1. Die Lücke hat sich dramatisch geschlossen, hauptsächlich durch LLM-Skalierung und Feinabstimmung.
  • Spezialisiertes Fine-Tuning schlägt immer noch das rohe GPT-4. TAT-LLM 7B (74,56 % EM) übertrifft GPT-4 Zero-Shot (71,92 % EM) auf TAT-QA, selbst bei einem Bruchteil der Parameteranzahl. Die schrittweise Extractor→Reasoner→Executor-Pipeline, die TAT-LLM verwendet, spiegelt die Intuition von TAGOP wider, ersetzt aber den symbolischen Tagger durch ein gepromptetes LLM.

Was Bestand hat – und was nicht

Der Benchmark basiert auf echten Daten, echten Fragen und echten Finanzberichten. Diese Glaubwürdigkeit ist sein größtes Kapital. Die 32-Punkte-Lücke zwischen Mensch und Modell bei der Veröffentlichung war echt, und der Datensatz ist so anspruchsvoll, dass selbst fünf Jahre später die Top-Systeme sie nicht vollständig geschlossen haben.

Was mich besorgt, ist die Annahme einer einzelnen Tabelle. Jeder TAT-QA-Kontext enthält genau eine Tabelle. Echte Geschäftsberichte enthalten Dutzende, oft mit hierarchischen Beziehungen über Segmente, Tochtergesellschaften und Zeiträume hinweg. Ein Modell, das TAT-QA-Fragen perfekt beantworten kann, ist immer noch nicht auf die tabellenübergreifende Konsolidierung vorbereitet, die die reale Buchhaltungsarbeit dominiert. Das MMQA-Paper (ICLR 2025) stellt genau diesen Punkt heraus – dass Ein-Tabellen-Benchmarks wie TAT-QA die Komplexität mehrerer Tabellen, mit der Praktiker konfrontiert sind, unterschätzen.

Die Verteilung der Antworttypen ist in der Praxis ebenfalls nicht so schwierig, wie sie aussieht. Etwa 42 % der TAT-QA-Antworten sind einzelne Textabschnitte – direkte Extraktionen, die keine Berechnung erfordern. Die herausfordernden Multi-Operations-Kompositionen sind in der Minderheit. Ein Modell, das alle Extraktionen richtig und die gesamte Arithmetik falsch macht, würde immer noch im Bereich von 30–40 % landen. Der Benchmark gewichtet nicht nach Schwierigkeitsgrad, was das Signal der wirklich schwierigen logischen Fälle abflacht.

Schließlich wurde die menschliche Baseline (90,8 % F1) mit Annotatoren berechnet, die Zugang zum Dokument hatten, aber möglicherweise keine CPA-Experten waren. Für logisches Schließen in Beancount-Größenordnung – wo ein Agent Buchhaltungsrichtlinien verstehen muss und nicht nur Arithmetik – könnten 90,8 % eine Überschätzung der „korrekten“ Obergrenze sein.

Warum das für Finanz-KI wichtig ist

TAT-QA ist der öffentliche Benchmark, der dem am nächsten kommt, womit ein Beancount-Agent täglich konfrontiert ist: strukturierte Buchungsdaten (Tabelle) neben unstrukturierten Erläuterungen (Memo, Beschreibung, Richtlinienhinweis). Das TAGOP-Ergebnis bestätigt, was ich beim Bau von Ledger-Tools erwarten würde: Grounding ist schwieriger als Rechnen. Das Tagging der richtigen Zellen ist das Problem; sie zu summieren ist trivial.

Der Verlauf des Leaderboards ist ermutigend für das Produkt: Ein auf diesen Bereich feinabgestimmtes 7B-Parameter-Modell übertrifft GPT-4 im Zero-Shot-Verfahren, was darauf hindeutet, dass ein Beancount-spezifisches feinabgestimmtes Modell die Retrieval+Arithmetik-Arbeitslast bewältigen könnte, ohne für jede Ledger-Abfrage API-Aufrufe an Frontier-Modelle zu benötigen. Latenz, Kosten und Datenschutz verbessern sich, wenn wir einen kompakten Spezialisten lokal ausführen können.

Die Beschränkung auf eine einzelne Tabelle ist die direkte Lücke, die es für Bean Labs zu schließen gilt. Beancount-Ledger sind effektiv Dokumente mit mehreren Tabellen – Kontobuchungen, Budgetzeilen, Abstimmungsnotizen – und der Benchmark, der diese Multi-Hop-Struktur über verwandte Tabellen hinweg erfasst, existiert noch nicht vollständig. MultiHiertt (ACL 2022) kommt dem am nächsten; es ist das nächste Paper auf meiner Liste.

Was man als Nächstes lesen sollte

  • MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) – befasst sich direkt mit der Ein-Tabellen-Beschränkung von TAT-QA; die Fragen erfordern logisches Schließen über mehrere hierarchische Tabellen innerhalb desselben Finanzdokuments, was konsolidierten Ledger-Abschlüssen näher kommt.
  • ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) – erweitert FinQA auf mehrstufige Dialoge; Modelle müssen den fortlaufenden numerischen Kontext über die Fragerunden hinweg verfolgen, was der Art und Weise entspricht, wie ein Beancount-Agent Folgefragen zu einer Ledger-Sitzung bearbeitet.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) – das direkte Follow-up der gleichen NExT++ Gruppe; zeigt, wie ein mit einer Extractor→Reasoner→Executor-Pipeline feinabgestimmtes LLaMA-2 GPT-4 im Zero-Shot-Verfahren bei TAT-QA und FinQA schlägt.