TAT-QA: Hybride tabel-tekst QA-benchmark voor redeneren over financiële jaarverslagen
Ik lees vandaag TAT-QA omdat het zich op een kruispunt bevindt dat direct van belang is voor wat we bouwen: vragen die alleen beantwoord kunnen worden door gelijktijdig te redeneren over een tabel en de omringende tekst. In Beancount bestaat elke grootboekmutatie in een context — een tabelrij die nergens op slaat zonder de memo, de omschrijving van de tegenpartij of het rekeningbeleid dat uitlegt waarom die regel daar staat. TAT-QA, in 2021 gepubliceerd door Zhu et al. van het NExT++ lab aan de NUS, is de benchmark die de NLP-gemeenschap dwong dit probleem frontaal aan te pakken.
Het onderzoek
Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng en Tat-Seng Chua introduceren TAT-QA (Tabular And Textual QA), een dataset van 16.552 vragen over 2.757 hybride contexten afkomstig uit echte financiële jaarverslagen. Elke context koppelt een semigestreutureerde tabel aan ten minste twee bijbehorende paragrafen — exact de structuur die je vindt in 10-K rapportages, waar een omzettabel naast de toelichting van de directie staat over wat de cijfers heeft gedreven. Bijna alle vragen vereisen rekenkunde: optellen, aftrekken, vermenigvuldigen, delen, tellen, vergelijken, sorteren en samengestelde bewerkingen.
De kernbijdrage is tweeledig: de benchmark zelf, en TAGOP, een nieuw model dat de taak behandelt als het taggen van bewijs gevolgd door symbolisch redeneren. TAGOP gebruikt een sequence tagger over de samengevoegde tabelcellen en tekstfragmenten om te identificeren welke bewijsstukken verzameld moeten worden, en past vervolgens een vaste set aggregatie-operatoren toe (som, verschil, product, ratio, telling, etc.) om het uiteindelijke antwoord te berekenen. Geen neurale rekenkunde — de berekening zelf wordt altijd gedelegeerd aan een symbolische executor.
Belangrijke ideeën
- Identificatie van bewijsmateriaal is het lastige deel, niet de rekenkunde. De foutanalyse van TAGOP schrijft ruwweg 55% van de fouten toe aan onjuiste tagging en 29% aan ontbrekend bewijs. Zodra je de juiste cellen en tekstfragmenten hebt, maakt de symbolische executor zelden een berekeningsfout. Dit is een direct signaal: voor AI-agenten in de financiële sector domineert de retrieval- en grounding-stap.
- Modellen die alleen tekst gebruiken falen onmiddellijk. BERT-RC behaalt slechts 18,7% F1 op de testset. NumNet+ V2, de beste numerieke lezer van vóór TAT-QA, bereikt 46,9% F1. De tabel-only TaPas baseline scoort 22,8% F1. Een model dat tabellen leest zonder tekst — of tekst zonder tabellen — is ongeschikt voor dit domein.
- TAGOP scoort 58,0% F1 (50,1% exact match), menselijke experts scoren 90,8% F1 (84,1% EM). Het gat van 32,8 punten in F1-score ten tijde van publicatie was alarmerend. Het betekende dat zelfs het beste systeem uit 2021 minder dan twee derde van de vragen beantwoordde die een getrainde analist aankan.
- Tegen eind 2024 vertelt het leaderboard een ander verhaal. Het topsysteem, TAT-LLM (70B), bereikt 88,4% F1 — slechts 2,4 punten onder het menselijke niveau. TAT-LLM (7B) bereikt 82,88% F1, en GPT-4 in zero-shot bereikt 79,71% F1. Het gat is drastisch verkleind, voornamelijk door fine-tuning op LLM-schaal.
- Gespecialiseerde fine-tuning verslaat nog steeds de standaard GPT-4. TAT-LLM 7B (74,56% EM) presteert beter dan GPT-4 zero-shot (71,92% EM) op TAT-QA, zelfs met een fractie van het aantal parameters. De stapsgewijze Extractor→Reasoner→Executor pipeline die TAT-LLM gebruikt, weerspiegelt de intuïtie van TAGOP, maar vervangt de symbolische tagger door een geprompte LLM.
Wat standhoudt — en wat niet
De benchmark bestaat uit echte data, echte vragen en echte financiële verslagen. Die geloofwaardigheid is de grootste troef. Het gat van 32 punten tussen mens en model bij publicatie was reëel, en de dataset is moeilijk genoeg dat zelfs vijf jaar later de topsystemen het nog niet volledig hebben gedicht.
Wat me zorgen baart, is de aanname van één enkele tabel. Elke TAT-QA context bevat precies één tabel. Echte jaarverslagen bevatten er tientallen, vaak met hiërarchische relaties tussen segmenten, dochterondernemingen en tijdsperioden. Een model dat TAT-QA-vragen perfect kan beantwoorden, is nog steeds niet voorbereid op de consolidatie over meerdere tabellen die het echte boekhoudkundige werk domineert. Het MMQA-artikel (ICLR 2025) maakt precies dit punt — dat benchmarks met één tabel, zoals TAT-QA, de complexiteit van meerdere tabellen waar praktijkbeoefenaars mee te maken krijgen, onderschatten.
De distributie van antwoordtypes is in de praktijk ook niet zo moeilijk als het lijkt. Ongeveer 42% van de TAT-QA-antwoorden zijn enkele tekstfragmenten — directe extracties waarvoor geen berekening nodig is. De uitdagende samengestelde bewerkingen vormen een minderheid. Een model dat alle extracties goed doet en alle rekenkunde fout, zou nog steeds ergens in de 30–40% scoren. De benchmark weegt niet op basis van moeilijkheidsgraad, wat het signaal van de werkelijk moeilijke redeneercasussen afvlakt.
Ten slotte werd de menselijke baseline (90,8% F1) berekend met annotatoren die wel toegang hadden tot het document, maar mogelijk geen experts op accountant-niveau waren. Voor redeneren in grootboeken op Beancount-schaal — waarbij een agent het boekhoudbeleid moet begrijpen, niet alleen rekenkunde — is 90,8% wellicht een overschatting van het "correcte" plafond.
Waarom dit belangrijk is voor financiële AI
TAT-QA is de publieke benchmark die het dichtst in de buurt komt van waar een Beancount-agent dagelijks mee te maken heeft: gestructureerde mutatiegegevens (tabel) naast een ongestructureerd verhaal (memo, beschrijving, beleidsnotitie). Het TAGOP-resultaat bevestigt wat ik verwachtte bij het bouwen van grootboek-tools: grounding is moeilijker dan rekenen. De juiste cellen getagd krijgen is het probleem; ze optellen is triviaal.
Het traject op het leaderboard is bemoedigend voor het product: een model met 7 miljard parameters dat is gefinetuned op dit domein presteert beter dan GPT-4 zero-shot. Dit suggereert dat een specifiek voor Beancount gefinetuned model de retrieval+rekenkunde-werklast zou kunnen afhandelen zonder dat er voor elke grootboekvraag API-oproepen naar frontier-modellen nodig zijn. Latentie, kosten en gegevensprivacy verbeteren allemaal als we een compacte specialist lokaal kunnen draaien.
De beperking tot één tabel is het directe gat dat Bean Labs moet dichten. Beancount-grootboeken zijn in feite documenten met meerdere tabellen — boekingen, budgetregels, reconciliatienotities — en de benchmark die die multi-hop structuur over gerelateerde tabellen vastlegt, bestaat nog niet volledig. MultiHiertt (ACL 2022) komt het dichtst in de buurt; dat is het volgende artikel op mijn lijst.
Wat nu te lezen
- MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — pakt direct de beperking van TAT-QA met één tabel aan; vragen vereisen redeneren over meerdere hiërarchische tabellen binnen hetzelfde financiële document, wat dichter bij geconsolideerde grootboekoverzichten ligt.
- ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — breidt FinQA uit naar een meerstapsdialoog; modellen moeten de lopende numerieke context over verschillende vraagrondes volgen, wat overeenkomt met hoe een Beancount-agent vervolgvragen over een grootboeksessie afhandelt.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — het directe vervolg van dezelfde NExT++ groep; laat zien hoe LLaMA-2, gefinetuned met een Extractor→Reasoner→Executor pipeline, GPT-4 zero-shot verslaat op TAT-QA en FinQA.
