MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami
Každý benchmark finančného QA, ktorý som tento mesiac čítal — FinQA, TAT-QA, ConvFinQA — stojí na rovnakom tichom predpoklade: jedna plochá tabuľka na dokument. Skutočné finančné správy tak vôbec nevyzerajú. Konsolidované súvahy vnárajú dcérske spoločnosti do segmentov v rámci materských subjektov; výkazy ziskov a strát obsahujú hierarchické riadkové položky s medzisúčtami, ktoré samy napájajú vyššie agregáty. MultiHiertt (Zhao a kol., ACL 2022) je prvý benchmarkový dataset vytvorený presne na odhalenie tejto medzery a čísla, ktoré z neho vychádzajú, sú vytriezvením.
Práca
Yilun Zhao, Yunxiang Li, Chenying Li a Rui Zhang z Penn State predstavujú MultiHiertt, QA benchmark s 10 440 pármi otázok a odpovedí získaných z 2 513 reálnych finančných správ. Každý dokument obsahuje v priemere 3,89 hierarchických tabuliek spolu so 68 vetami (~1 645 slov) naratívneho textu. Rozdelenie train/dev/test je 7 830 / 1 044 / 1 566. Hlavný argument je jednoduchý, ale výstižný: predchádzajúce datasety (FinQA, TAT-QA) vyhodnocujú modely na dokumentoch s jedinou plochou tabuľkou, čo systematicky podhodnocuje zložitosť uvažovania nad skutočnými finančnými výkazmi, kde otázka môže vyžadovať syntézu čísel z troch samostatných podtabuliek pred aplikovaním aritmetického programu.
Spolu s datasetom autori navrhujú MT2Net, dvojstupňový model: modul na vyhľadávanie faktov (facts-retrieval module), ktorý hodnotí kandidátske podporné bunky a textové úseky zo všetkých tabuliek a odsekov, nasledovaný modulom symbolického uvažovania (symbolic reasoning module – exekútor aritmetického programu prevzatý z dizajnu NeRd od FinQA), ktorý operuje nad vyhľadanými faktami. MT2Net používa RoBERTa-large ako svoj enkodér v celom procese.
Kľúčové myšlienky
- Priemer 3,89 tabuliek na dokument v MultiHiertt priamo zrkadlí štruktúru reálnych výročných správ, kde jedna otázka môže vyžadovať hodnoty z výkazu ziskov a strát, tabuľky rozdelenia segmentov a prílohy – pričom žiadna z nich nie je plochá.
- MT2Net (RoBERTa-large) dosahuje 38,43 % F1 na testovacej sade; experti dosahujú 87,03 % F1 – čo predstavuje rozdiel takmer 49 bodov.
- Otázky vyžadujúce uvažovanie naprieč tabuľkami (vyžadujúce dôkazy z ≥ 2 tabuliek) dosahujú 21,04 % F1 pri najlepšom modeli, v porovnaní s 36,77 % pri otázkach s jednou tabuľkou – čo je pokles o viac ako 15 bodov z už tak nízkej základne.
- Modul symbolického uvažovania pomáha, ale nedokáže kompenzovať chyby pri vyhľadávaní: anotačná štúdia ukazuje, že 31,5 % chýb v hierarchických príkladoch pochádza z výberu nesprávnych buniek s dôkazmi ešte predtým, než sa pokúsime o akúkoľvek aritmetiku.
- Do roku 2024 dosahuje GPT-4 s promptingom typu Program-of-Thoughts 67,23 % F1 na MultiHiertt a špecializovaná metóda EEDP (evidence-enhanced document prompting) posúva GPT-4 na 70,32 % – stále 17 bodov pod ľudským maximom.
- Kvalita anotácií je solídna: inter-anotačné Kappa 0,72–0,90, pričom 76,8 %–94,0 % vzoriek bolo hodnotených známkou ≥ 4/5 za správnosť zo strany crowd workerov.
Čo obstojí — a čo nie
Konštrukcia datasetu je starostlivá a metriky kvality anotácií sú upokojujúce. Hlavné tvrdenie — že benchmarky s jednou tabuľkou podhodnocujú skutočnú zložitosť — je zjavne pravdivé a 15-bodová medzera F1 medzi podmnožinami s jednou a viacerými tabuľkami ho robí konkrétnym. Porovnávacia tabuľka (Tabuľka 1 v článku) jasne ukazuje, že FinQA a TAT-QA majú jednu tabuľku na dokument; MultiHiertt skutočne vypĺňa reálnu medzeru.
Napriek tomu MT2Net nie je silným navrhovaným riešením — je skôr silným základom (baseline). Vyhľadávací modul je skórovač na úrovni úsekov (span-level scorer) trénovaný s dohľadom na podporné fakty, čo znamená, že silne závisí od správneho signálu dohľadu počas trénovania. Práca nevyhodnocuje, čo sa stane, keď je hierarchická štruktúra implicitná (žiadne explicitné HTML vnorenie parent-child), čo je bežné v naskenovaných podaniach a starších PDF. Testovacia sada je uzavretá za rebríčkom CodaLab, čo sťažuje nezávislú replikáciu výsledkov alebo skúmanie chybových režimov.
Chcem tiež upozorniť na niečo, čo autori podceňujú: výsledky GPT-4 z roku 2024 ukazujú, že samotná sila uvažovania dokáže prekonať veľkú časť medzery aj bez akejkoľvek architektúry špeciálne navrhnutej pre hierarchiu. GPT-4 sa dostáva na 70 % bez toho, aby mu niekto povedal, že dokument obsahuje hierarchické tabuľky — jednoducho číta vykreslené HTML. To je v skutočnosti zaujímavé zistenie: povedomie o hierarchii mô že byť menej dôležité ako samotná kapacita kontextu a spoľahlivosť aritmetiky. Hlavným obmedzením môže byť stále presnosť vyhľadávania v dlhých dokumentoch, nie architektúra uvažovania.
Prečo na tom záleží pre finančnú AI
Agenti Beancount čelia presne tomuto problému. Otázka typu „aká bola naša efektívna daňová sadzba v roku 2023?“ vyžaduje nájdenie riadku zisku pred zdanením z výkazu ziskov a strát, nákladu na daň z príjmov zo samostatnej poznámky a prípadne rozdelenie na úrovni segmentov na zosúladenie konsolidovaného čísla. Nič z toho sa nenachádza v jedinej plochej tabuľke. 15-bodová penalizácia F1 za uvažovanie naprieč tabuľkami v MultiHiertt kvantifikuje to, čo by som očakával v kontexte Beancount: agenti, ktorí vyzerajú dobre pri dopytoch na jeden účet, výrazne degradujú, keď otázka vyžaduje spojenie viacerých častí účtovnej knihy.
Analýza chýb je priamo uplatniteľná v praxi. Ak 31,5 % chýb predstavuje vyhľadanie nesprávnych dôkazov ešte pred akýmkoľvek výpočtom, prioritou pre agenta Beancount s funkciou zápisu nie je lepší aritmetický engine — je to lepší selektor dôkazov. Agent, ktorý pred vykonaním výpočtov vytiahne nesprávne riadky hlavnej knihy, vytvorí záznamy, ktoré vyzerajú vierohodne, ale sú nesprávne, čo je presne ten chybový režim, ktorý sa pri audite zachytáva najťažšie.
Trajektória GPT-4 je tiež povzbudivá pre blízku budúcnosť: posun z 38 % na 70 % v priebehu dvoch rokov naznačuje, že finančné uvažovanie nad viacerými tabuľkami je riešiteľné s tým, ako sa zlepšujú okná kontextu a uvažovanie, a to aj bez tréningu špecifického pre danú doménu. Zostávajúca 17-bodová medzera oproti ľudskému výkonu však nie je šum — pravdepodobne odráža prípady, kde hierarchická štruktúra nesie sémantický náklad, ktorý sa pri plochom textovom vykreslení stráca.
Čo si prečítať ďalej
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis a kol., NeurIPS 2020) — arXiv:2005.11401 — základ, na ktorom stavia takmer každý finančný QA systém; pochopenie jeho rozdelenia na parametrickú a neparametrickú pamäť je dôležité pre rozhodovanie o tom, ako štruktúrovať vyhľadávanie v účtovnej knihe.
- FLARE: Active Retrieval Augmented Generation (Jiang a kol., EMNLP 2023) — arXiv:2305.06983 — vyhľadáva uprostred generovania, keď model predpovedá, že potrebuje nové fakty, čo prirodzene pasuje na uvažovanie nad viacerými tabuľkami, kde uprostred uvažovania zistíte, že potrebujete tabuľku dcérskej spoločnosti.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao a kol., ICAIF 2024) — dolaďuje LLM špecificky na FinQA/TAT-QA/MultiHiertt a ukazuje, čo doménová adaptácia v skutočnosti prináša oproti promptingu GPT-4.
