Dokážu LLM uvažovať nad tabuľkovými údajmi? Čo nám hovoria štyri benchmarky o finančnej AI
Tabuľky sú spôsobom, akým účtovníci premýšľajú. Hlavná kniha Beancount je v podstate tabuľka – účty ako riadky, dátumy a sumy ako stĺpce, potvrdenia (assertions) ako obmedzenia naprieč bunkami. Keď som sa teda začal pýtať, či môžu LLM poháňať autonómnych finančných agentov, narážal som na tú istú predbežnú otázku: dokážu vôbec spoľahlivo prečítať tabuľku? Literatúra k tejto téme je viac zdrvujúca, než som čakal.
Štúdia
Fang a kol. publikovali v TMLR 2024 prácu "Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding — A Survey" (arXiv:2402.17944). Ide o 41-stranovú taxonómiu pokrývajúcu tri oblasti: predpovedanie štruktúrovaných výsledkov z tabuľkových charakteristík, generovanie syntetických tabuľkových údajov a porozumenie tabuľkám dostatočne na to, aby odpovedali na otázky o nich. Oblasť porozumenia – odpovedanie na otázky k tabuľkám (TableQA), overovanie faktov a štrukturálne uvažovanie – je miestom, kde sa nachádza najrelevantnejšia práca pre finančnú AI.
Práca, ktorú som čítal súbežne s ňou, "Table Meets LLM: Can Large Language Models Understand Structured Table Data?" od Sui a kol. (WSDM 2024, arXiv:2305.13062), pristupuje k problému kontrolovanejšie: definujú benchmark schopnosti štrukturálneho porozumenia (SUC) so siedmimi úzkymi úlohami – rozdelenie tabuľky, detekcia veľkosti, detekcia zlúčených buniek, vyhľadávanie buniek, spätné vyhľadávanie, získavanie stĺpcov a získavanie riadkov – a testujú priamo GPT-3.5 a GPT-4. Žiadne reťazce uvažovania, žiadne triky s vyhľadávaním. Len: dokáže model urobiť to, čo žiadame?
Kľúčové myšlienky
- Priepasť vo formátoch je skutočná a prekvapivo veľká. V benchmarku SUC HTML serializácia prekonáva formát prirodzeného jazyka s oddeľovačmi celkovo o približne 6,76 %. Poradie – HTML > XML > JSON > Markdown > NL+Sep – ostáva konzistentné naprieč úlohami. Súbory Beancount sú bližšie k prirodzenému jazyku na tomto spektre, čo je varovný signál.
- Vyhľadávanie buniek je prekvapivo ťažké. GPT-3.5 dosahuje iba 44 % presnosť pri priamom vyhľadávaní buniek (nájdite hodnotu v riadku X, stĺpci Y). GPT-4 dosahuje v rovnakej úlohe 73,34 %. Pri deterministickej operácii, ktorú vzorec v tabuľkovom procesore spracuje v mikrosekundách, je rozdiel 26 percentuálnych bodov medzi modelmi alarmujúci.
- Príklady v kontexte (few-shot) sú kľúčové. Odstránenie 1-shot príkladov z promptov SUC spôsobilo celkový pokles presnosti o 30,38 % vo všetkých úlohách. Štrukturálne porozumenie modelu je výrazne podporené ukážkami, nie je skutočne internalizované.
- Priepasť medzi človekom a LLM v reálnom TableQA je obrovská. TableBench (arXiv:2408.09174, AAAI 2025) vyhodnocuje 886 otázok naprieč overovaním faktov, numerickým uvažovaním, analýzou údajov a vizualizáciou. Presnosť u ľudí je 85,91 %. GPT-4-Turbo dosahuje 40,38 %, GPT-4o dosahuje 42,73 %. Najlepšie súčasné modely podávajú výkon zhruba na polovičnej úrovni človeka v benchmarku navrhnutom tak, aby odrážal reálnu zložitosť tabuliek.
- Kolaps pri zložitosti finančných tabuliek je závažný. FinSheet-Bench (arXiv:2603.07316) testuje LLM na šablónach fondov súkromného kapitálu s rôznou štrukturálnou zložitosťou. Jednoduché vyhľadávania dosahujú presnosť 89,1 %. Komplexné agregácie klesajú na 19,6 %. Najväčší testovací súbor (152 spoločností, 8 fondov) vykazuje priemernú presnosť 48,6 % naprieč všetkými modelmi, čo je pokles z 86,2 % pri najjednoduchšom súbore.
- Dlhé tabuľky modely kategoricky lámu. Prehľad TMLR uvádza, že nad 1000 tokenov degraduje výkon GPT-3 takmer na úroveň náhody. Dokonca aj modely s kontextovým oknom 200 tisíc tokenov majú problémy s masívnymi dátovými súbormi kvôli kvadratickým nákladom samo-pozornosti (self-attention) pri dlhých sekvenciách.
Čo obstojí — a čo nie
Benchmark od Sui a kol. je starostlivo navrhnutý a čísla sú uveriteľné. To, že HTML prekonáva markdown pri štrukturálnych úlohách, je neintuitívne – markdown je kompaktnejší a LLM ho pri tréningu vidia viac – ale je to v súlade s tým, čo by ste očakávali: explicitné tagovanie v HTML poskytuje modelu viac kotiev na navigáciu v štruktúre bez toho, aby ju musel vyvodzovať.
Čo vyvoláva pochybnosti: technika samo-rozširovania (dvojfázový prompting, kde prvý prompt žiada model identifikovať kritické hodnoty pred samotnou odpoveďou) prináša zlepšenia o 0,84 – 5,68 % v následných benchmarkoch ako TabFact a ToTTo. Sú to reálne čísla z reálnych experimentov, ale sú marginálne. Táto technika nerieši základný problém – je to len záplata v rámci prompt engineeringu na vrchole skutočne slabého štrukturálneho porozumenia.
Prieskum TMLR má problém s rozsahom spoločný pre všetky prehľady: pokrýva všetko od tabuľkovej predikcie (doména XGBoost) cez generatívnu syntézu tabuliek až po QA, čo oslabuje analýzu. Najpraktickejšou časťou pre moje účely je sekcia štruktúrovaného QA, a aj tam prieskum väčšinou len katalogizuje metódy namiesto toho, aby syntetizoval, ktoré z nich sú skutočne spoľahlivé.
Zistenie z FinSheet-Bench, že komplexné agregácie dosahujú skóre 19,6 %, je najvýraznejším finančným varovným signálom. Agregácia portfólia, sumáre na úrovni fondov a viacročné porovnania sú presne tie operácie, vďaka ktorým je finančný reporting netriviálny – a sú to presne tie miesta, kde LLM zlyhávajú.
Prečo je to dôležité pre finančnú AI
Hlavné knihy Beancount sú tabuľky. Keď autonómny agent číta knihu, aby detegoval anomálie, generoval reporty alebo rozhodoval o spätnom zápise, vykonáva tabuľkové uvažovanie. Dôkazy naznačujú, že súčasné LLM zvládajú jednoduché vyhľadávania pomerne dobre (získavanie buniek na 73 % u GPT-4), ale kolabujú pri operáciách, na ktorých záleží najviac: viacstupňová agregácia, odhad veľkosti pri veľkých knihách a uvažovanie nad štrukturálnymi variáciami.
Zistenie o serializácii má okamžité praktické dôsledky. Ak posielam súbory Beancount do LLM, formát, ktorý si vyberiem, ovplyvňuje presnosť o niekoľko percentuálnych bodov ešte predtým, než napíšem jediný riadok logiky agenta. Natívna syntax Beancount je blízko konca hierarchie formátov "prirodzený jazyk + oddeľovače" – čitateľná pre ľudí, suboptimálna pre LLM. Konverzia na štruktúrovanejší medzikrok (JSON alebo HTML tabuľka transakcií) pred odoslaním modelu môže stáť za náklady na predspracovanie.
Kolaps pri narastajúcej zložitosti je najvážnejším zistením. Skutočná hlavná kniha Beancount pre malú firmu môže mať tisíce transakcií, desiatky účtov a viacročnú históriu. Výsledky FinSheet-Bench naznačujú, že akonáhle tabuľka narastie do veľkosti, kedy na nej skutočne záleží, presnosť LLM degraduje do sféry, ktorá nie je bezpečná pre autonómny spätný zápis.
Čo si prečítať ďalej
- TableLLM (arXiv:2311.09206) — doladený model trénovaný na 169 Kaggle tabuľkách (UniPredict); uvádza sa, že výrazne prekonáva GPT-4 zero-shot pri tabuľkovej predikcii, čo naznačuje, že doménovo špecifické doladenie je stále správnym prístupom pre finančné tabuľkové úlohy.
- TAT-QA (arXiv:2105.07624) — dátový súbor špecificky pre diskrétne uvažovanie nad hybridnými finančnými dokumentmi (tabuľky + text, napr. správy o ziskoch); sprievodný model TAT-LLM je najpriamejším precedensom pre aplikáciu špecializovaných modelov na finančné tabuľkové uvažovanie.
- ToRR: A Benchmark for Table Reasoning and Robustness (arXiv:2502.19412) — zameriava sa na adversariálne perturbácie, ako je miešanie riadkov a zmena poradia stĺpcov; ak je agent Beancount robustný voči zmene poradia, je to signál, že rozumie štruktúre, nie pozícii.
