Prejsť na hlavný obsah

TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

TAT-QA čítam dnes preto, lebo sa nachádza na priesečníku, ktorý má priamy vplyv na to, čo budujeme: otázky, na ktoré sa dá odpovedať len súčasným usudzovaním nad tabuľkou a okolitým textom. V Beancounte existuje každá položka v účtovnom denníku v určitom kontexte – riadok tabuľky nedáva zmysel bez poznámky (memo), popisu protistrany alebo pravidiel účtovania, ktoré vysvetľujú, prečo tam daná položka je. TAT-QA, publikovaný na ACL 2021 autormi Zhu a kol. z laboratória NExT++ na NUS, je benchmark, ktorý prinútil komunitu NLP čeliť tomuto problému priamo.

Práca

2026-05-14-tat-qa-hybrid-tabular-textual-financial-question-answering

Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng a Tat-Seng Chua predstavujú TAT-QA (Tabular And Textual QA), dataset 16 552 otázok nad 2 757 hybridnými kontextmi čerpanými z reálnych finančných výročných správ. Každý kontext spája semistruktúrovanú tabuľku s aspoň dvoma sprievodnými odsekmi – presne taká štruktúra, akú nájdete v hláseniach 10-K, kde tabuľka výnosov susedí s komentárom manažmentu o tom, čo tieto čísla ovplyvnilo. Takmer všetky otázky vyžadujú aritmetiku: sčítanie, odčítanie, násobenie, delenie, počítanie, porovnávanie, triedenie a zloženie viacerých operácií.

Hlavný prínos je dvojaký: samotný benchmark a TAGOP, nový model, ktorý k úlohe pristupuje ako k označovaniu dôkazov (evidence tagging), po ktorom nasleduje symbolické usudzovanie. TAGOP využíva sekvenčný tagger nad zreťazenými bunkami tabuľky a úsekmi textu (text spans) na identifikáciu kúskov dôkazov, ktoré je potrebné zhromaždiť, a potom aplikuje fixnú sadu agregačných operátorov (súčet, rozdiel, súčin, podiel, počet atď.) na výpočet konečnej odpovede. Žiadna neurónová aritmetika – samotný výpočet je vždy delegovaný na symbolický exekútor.

Kľúčové myšlienky

  • Identifikácia dôkazov je tá ťažšia časť, nie aritmetika. Analýza chýb modelu TAGOP pripisuje zhruba 55 % zlyhaní nesprávnemu označovaniu a 29 % chýbajúcim dôkazom. Akonáhle máte správne bunky a úseky, symbolický exekútor málokedy urobí chybu vo výpočte. Toto je priamy signál: pre finančných agentov dominuje krok vyhľadávania a ukotvenia (grounding).
  • Modely založené len na texte okamžite zlyhávajú. BERT-RC dosahuje na testovacej sade len 18,7 % F1. NumNet+ V2, najlepší numerický čitateľ pred TAT-QA, dosahuje 46,9 % F1. Baseline TaPas (len tabuľky) má skóre 22,8 % F1. Model, ktorý číta tabuľky bez textu – alebo text bez tabuliek – je v tejto doméne nepoužiteľný.
  • TAGOP dosahuje 58,0 % F1 (50,1 % presná zhoda), ľudskí experti 90,8 % F1 (84,1 % EM). Rozdiel 32,8 bodu v skóre F1 bol v čase publikácie alarmujúci. Znamenalo to, že aj najlepší systém z roku 2021 odpovedal na menej ako dve tretiny otázok, ktoré zvládne vyškolený analytik.
  • Koncom roka 2024 rebríček ukazuje iný príbeh. Najlepší systém, TAT-LLM (70B), dosahuje 88,4 % F1 – len o 2,4 bodu menej ako človek. TAT-LLM (7B) dosahuje 82,88 % F1 a GPT-4 v režime zero-shot dosahuje 79,71 % F1. Priepasť sa dramaticky zmenšila, hlavne vďaka jemnému ladeniu (fine-tuning) LLM vo veľkom meradle.
  • Špecializované jemné ladenie stále prekonáva čistý GPT-4. TAT-LLM 7B (74,56 % EM) prekonáva GPT-4 zero-shot (71,92 % EM) v rámci TAT-QA, a to aj pri zlomku počtu parametrov. Postupná pipeline Extractor→Reasoner→Executor, ktorú TAT-LLM používa, odzrkadľuje intuíciu TAGOP, ale nahrádza symbolický tagger promptovaným LLM.

Čo pretrváva – a čo nie

Benchmark obsahuje reálne dáta, reálne otázky a reálne finančné správy. Táto dôveryhodnosť je jeho najväčšou devízou. 32-bodový rozdiel medzi človekom a modelom v čase publikácie bol skutočný a dataset je dostatočne náročný na to, aby ho ani o päť rokov neskôr špičkové systémy úplne neprekonali.

Čo ma znepokojuje, je predpoklad jednej tabuľky. Každý kontext TAT-QA obsahuje presne jednu tabuľku. Skutočné výročné správy ich obsahujú desiatky, často s hierarchickými vzťahmi naprieč segmentmi, dcérskymi spoločnosťami a časovými obdobiami. Model, ktorý dokáže dokonale odpovedať na otázky TAT-QA, je stále nepripravený na konsolidáciu naprieč tabuľkami, ktorá dominuje v skutočnej účtovnej praxi. Práca MMQA (ICLR 2025) poukazuje presne na toto – že benchmarky s jednou tabuľkou ako TAT-QA podceňujú zložitosť viacerých tabuliek, ktorej čelia praktici.

Distribúcia typov odpovedí tiež nie je v praxi taká náročná, ako sa zdá. Približne 42 % odpovedí v TAT-QA sú jednotlivé úseky (single spans) – priame extrakcie nevyžadujúce žiadny výpočet. Náročné zloženia viacerých operácií sú v menšine. Model, ktorý urobí správne všetky extrakcie a pomýli sa vo všetkej aritmetike, by stále dosiahol skóre niekde v rozmedzí 30 – 40 %. Benchmark neváži otázky podľa obtiažnosti, čo oslabuje signál z tých skutočne náročných prípadov usudzovania.

Napokon, ľudský baseline (90,8 % F1) bol vypočítaný pomocou anotátorov, ktorí mali prístup k dokumentu, ale nemuseli byť expertmi na úrovni certifikovaných účtovníkov (CPA). Pre usudzovanie v účtovných denníkoch typu Beancount – kde agent musí rozumieť účtovným zásadám, nie len aritmetike – môže byť 90,8 % nadhodnoteným odhadom „správneho“ maxima.

Prečo je to dôležité pre finančnú AI

TAT-QA je najbližší verejný benchmark tomu, čomu denne čelí agent Beancountu: štruktúrované údaje o položkách (tabuľka) vedľa neštruktúrovaného rozprávania (poznámka, popis, zásady účtovania). Výsledok TAGOP potvrdzuje to, čo by som očakával pri budovaní nástrojov pre účtovné denníky – ukotvenie (grounding) je ťažšie ako výpočet. Problémom je získať správne označené bunky; ich sčítanie je triviálne.

Trajektória rebríčka je povzbudivá pre produkt: model so 7 miliardami parametrov jemne vyladený na túto doménu prekonáva GPT-4 zero-shot. To naznačuje, že špecificky vyladený model pre Beancount by mohol zvládnuť záťaž vyhľadávania a aritmetiky bez potreby volaní API špičkových modelov pri každom dopyte do denníka. Latencia, náklady a súkromie dát sa zlepšia, ak dokážeme spustiť kompaktného špecialistu lokálne.

Obmedzenie na jednu tabuľku je priamou medzerou, ktorú treba v Bean Labs vyplniť. Účtovné denníky Beancount sú v podstate dokumenty s viacerými tabuľkami – zaúčtovania na účty, rozpočtové riadky, odsúhlasovacie poznámky – a benchmark, ktorý by zachytával túto multi-hop štruktúru naprieč súvisiacimi tabuľkami, zatiaľ úplne neexistuje. Najbližšie k tomu má práca MultiHiertt (ACL 2022); je to ďalší článok na mojom zozname.

Čo si prečítať ďalej

  • MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) – priamo rieši obmedzenie TAT-QA na jednu tabuľku; otázky vyžadujú usudzovanie naprieč viacerými hierarchickými tabuľkami v rámci toho istého finančného dokumentu, čo je bližšie tomu, ako vyzerajú konsolidované účtovné výkazy.
  • ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) – rozširuje FinQA o viacúrovňový dialóg; modely musia sledovať aktuálny číselný kontext naprieč kolami otázok, čo mapuje spôsob, akým agent Beancount spracováva doplňujúce dopyty k relácii nad účtovným denníkom.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) – priame pokračovanie od rovnakej skupiny NExT++; ukazuje, ako LLaMA-2 jemne vyladená pomocou pipeline Extractor→Reasoner→Executor prekonáva GPT-4 zero-shot v benchmarkoch TAT-QA a FinQA.