Doorgaan naar hoofdinhoud

MultiHiertt: Benchmarking van numeriek redeneren over multi-hiërarchische financiële tabellen

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Elke financiële QA-benchmark die ik deze maand heb gelezen — FinQA, TAT-QA, ConvFinQA — rust op dezelfde stilzwijgende aanname: één platte tabel per document. Echte financiële rapporten zien er totaal niet zo uit. Geconsolideerde balansen nesten dochterondernemingen binnen segmenten binnen moederentiteiten; winst-en-verliesrekeningen bevatten hiërarchische posten met subtotalen die zelf weer grotere aggregaten voeden. MultiHiertt (Zhao et al., ACL 2022) is de eerste benchmark-dataset die is gebouwd om precies dit gat bloot te leggen, en de cijfers die daaruit voortvloeien zijn ontnuchterend.

Het artikel

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

Yilun Zhao, Yunxiang Li, Chenying Li en Rui Zhang van Penn State introduceren MultiHiertt, een QA-benchmark van 10.440 vraag-antwoordparen afkomstig uit 2.513 echte financiële rapporten. Elk document bevat gemiddeld 3,89 hiërarchische tabellen naast 68 zinnen (~1.645 woorden) aan narratieve tekst. De verdeling tussen train/dev/test is 7.830 / 1.044 / 1.566. Het kernargument is simpel maar scherp: eerdere datasets (FinQA, TAT-QA) evalueren modellen op documenten met een enkele platte tabel, wat systematisch de complexiteit onderschat van het redeneren over feitelijke financiële deponeringen, waarbij een vraag het synthetiseren van getallen uit drie afzonderlijke subtabellen kan vereisen voordat een rekenkundig programma wordt toegepast.

Samen met de dataset stellen de auteurs MT2Net voor, een tweefasenmodel: een module voor het ophalen van feiten die kandidaat-ondersteunende cellen en tekstfragmenten uit alle tabellen en paragrafen scoort, gevolgd door een symbolische redeneermodule (een uitvoerder van rekenkundige programma's overgenomen van het NeRd-ontwerp van FinQA) die werkt met de opgehaalde feiten. MT2Net gebruikt RoBERTa-large als encoder.

Belangrijkste ideeën

  • Het gemiddelde van 3,89 tabellen per document in MultiHiertt weerspiegelt direct de structuur van echte jaarverslagen, waar een enkele vraag waarden kan vereisen uit de winst-en-verliesrekening, een tabel met segmentverdelingen en een bijlage — die geen van alle plat zijn.
  • MT2Net (RoBERTa-large) behaalt 38,43% F1 op de testset; menselijke experts scoren 87,03% F1 — een gat van bijna 49 punten.
  • Vragen over het redeneren tussen meerdere tabellen (die bewijs uit ≥ 2 tabellen vereisen) scoren 21,04% F1 onder het beste model, tegenover 36,77% voor vragen over een enkele tabel — een daling van meer dan 15 punten vanaf een toch al lage basislijn.
  • De symbolische redeneermodule helpt, maar kan fouten bij het ophalen niet compenseren: de annotatiestudie toont aan dat 31,5% van de fouten in hiërarchische voorbeelden voortkomt uit het selecteren van de verkeerde bewijscellen voordat er überhaupt een berekening wordt geprobeerd.
  • Tegen 2024 bereikt GPT-4 met Program-of-Thoughts-prompting 67,23% F1 op MultiHiertt, en een specifieke EEDP-methode (evidence-enhanced document prompting) tilt GPT-4 naar 70,32% — nog steeds 17 punten onder het menselijke plafond.
  • De annotatiekwaliteit is solide: inter-annotator Kappa van 0,72–0,90, waarbij 76,8%–94,0% van de samples door crowdworkers met een score van ≥ 4/5 voor correctheid werden beoordeeld.

Wat overeind blijft — en wat niet

De constructie van de dataset is zorgvuldig en de kwaliteitsmetrieken van de annotaties zijn geruststellend. De kernbewering — dat benchmarks met één tabel de werkelijke complexiteit onderschatten — is overduidelijk waar en het F1-gat van 15 punten tussen de subsets met één en meerdere tabellen maakt dit concreet. De vergelijkingstabel (Tabel 1 in het artikel) laat duidelijk zien dat FinQA en TAT-QA één tabel per document hebben; MultiHiertt vult echt een bestaand gat.

Dat gezegd hebbende, is MT2Net geen sterke voorgestelde oplossing — het komt dichter bij een sterke basislijn. De retrieval-module is een scorer op fragmentniveau getraind met supervisie op ondersteunende feiten, wat betekent dat deze zwaar afhankelijk is van een correct supervisiesignaal tijdens de training. Het artikel evalueert niet wat er gebeurt als de hiërarchische structuur impliciet is (geen expliciete ouder-kind HTML-nesting), wat gebruikelijk is in gescande deponeringen en oudere PDF's. De testset wordt achtergehouden achter een CodaLab-leaderboard, wat het moeilijk maakt om resultaten onafhankelijk te repliceren of foutmodi te onderzoeken.

Ik wil ook iets aanstippen waar de auteurs te weinig nadruk op leggen: de GPT-4-resultaten uit 2024 laten zien dat pure rekenkracht en redeneervermogen een groot deel van het gat kunnen dichten zonder enige architectuur die specifiek voor hiërarchie is ontworpen. GPT-4 haalt 70% zonder ooit te horen dat het document hiërarchische tabellen bevat — het leest gewoon de gerenderde HTML. Dat is eigenlijk een interessante bevinding: hiërarchiebewustzijn is misschien minder belangrijk dan pure contextcapaciteit en rekenkundige betrouwbaarheid. De beperkende factor is mogelijk nog steeds de precisie van retrieval over lange documenten, niet de redeneerarchitectuur.

Waarom dit belangrijk is voor financiële AI

Beancount-agents worden met precies dit probleem geconfronteerd. Een vraag als "wat was ons effectieve belastingtarief in 2023?" vereist het vinden van de regel voor het resultaat vóór belastingen in de winst-en-verliesrekening, de inkomstenbelastinglast uit een afzonderlijke toelichting, en mogelijk een uitsplitsing op segmentniveau om het geconsolideerde cijfer te reconciliëren. Geen van deze bevindt zich in een enkele platte tabel. De F1-boete van 15 punten voor het redeneren over meerdere tabellen in MultiHiertt kwantificeert wat ik zou verwachten in een Beancount-context: agents die goed presteren op vragen over een enkele rekening, zullen aanzienlijk slechter presteren wanneer een vraag het combineren van verschillende grootboeksecties vereist.

De foutanalyse is direct bruikbaar. Als 31,5% van de fouten bestaat uit het ophalen van het verkeerde bewijs voordat er een berekening plaatsvindt, dan is de prioriteit voor een Beancount-schrijvende agent niet een betere rekenmachine — het is een betere bewijsselecteur. Een agent die de verkeerde grootboekregels ophaalt voordat hij de berekening uitvoert, zal aannemelijk ogende maar onjuiste boekingen produceren, precies de foutmodus die het moeilijkst te vangen is bij een audit.

Het traject van GPT-4 is ook bemoedigend voor de korte termijn: de stijging van 38% naar 70% over twee jaar suggereert dat financieel redeneren over meerdere tabellen haalbaar is naarmate contextvensters en redeneren verbeteren, zelfs zonder domeinspecifieke training. Maar het resterende gat van 17 punten tot menselijke prestaties is geen ruis — het weerspiegelt waarschijnlijk gevallen waarin de hiërarchische structuur een semantische lading draagt die bij een platte tekstweergave verloren gaat.

Verder lezen

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — de basis waarop bijna elk financieel QA-systeem voortbouwt; het begrijpen van de verdeling tussen parametrisch en niet-parametrisch geheugen is belangrijk voor het bepalen hoe grootboek-retrieval moet worden gestructureerd.
  • FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — haalt informatie op tijdens het genereren wanneer het model voorspelt dat het nieuwe feiten nodig heeft, wat natuurlijk past bij het redeneren over meerdere tabellen waarbij je halverwege ontdekt dat je een tabel van een dochteronderneming nodig hebt.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — finetunet een LLM specifiek op FinQA/TAT-QA/MultiHiertt en laat zien wat domeinaanpassing daadwerkelijk toevoegt ten opzichte van GPT-4 prompting.