TableMaster: Adaptívne uvažovanie pre porozumenie tabuľkám pomocou LLM
Hlavná kniha Beancount je vo svojej podstate štruktúrovaná tabuľka: účty ako stĺpce, čas ako jedna os, sumy a meny ako hodnoty. Akýkoľvek agent, ktorý nad ňou uvažuje, musí robiť to, čo TableMaster — nájsť správne riadky a stĺpce, pochopiť, čo čísla znamenajú, a vybrať si, či bude počítať symbolicky alebo uvažovať v prirodzenom jazyku. TableMaster od Langa Cao a Hanbinga Liu (arXiv:2501.19378) je najschopnejšia pipeline na porozumenie tabuľkám bez jemného doladenia (fine-tuning), akú som doteraz videl, a chcel som pochopiť, či skutočne posúva stav techniky koncepčným spôsobom, alebo len vrství heuristiky promptingu, kým sa nepohne benchmark.
Práca
TableMaster je framework založený na promptingu, ktorý rieši štyri špecifické režimy zlyhania LLM pri tabuľkovom odpovedaní na otázky: modely majú problém lokalizovať relevantnú bunku vo veľkej tabuľke, uniká im sémantický kontext zakódovaný v hlavičkách stĺpcov, halucinujú aritmetiku pri uvažovaní v čistom texte a zlyhávajú, keď symbolické uvažovanie (SQL, Python) narazí na zašumené dáta alebo dáta zmiešaných typov. Autori reagujú na každé zlyhanie vyhradeným modulom, ktoré sú zostavené do trojstupňovej pipeline. Prvá fáza vytvára „tabuľku záujmu“ (table-of-focus) — orezanú podtabuľku obsahujúcu iba riadky a stĺpce relevantné pre dotaz — pomocou vyhľadávania stĺpcov zoradených pomocou LLM a filtrovania riadkov pomocou SQL. Druhá fáza verbalizuje túto podtabuľku do prirodzeného jazyka a kontroluje, či je extrahovaný výrez skutočne dostatočný na zodpovedanie otázky, pričom ho v prípade potreby iteratívne rozširuje. Tretia fáza aplikuje adaptívne uvažovanie: LLM sa pri každom dotaze rozhodne, či spustí reťazec myšlienok (chain-of-thought) nad verbalizovaným popisom, alebo vygeneruje a spustí Python či SQL, pričom symbolická cesta je vedená popisom v prirodzenom jazyku, aby zvládla prípady, keď sú hodnoty v tabuľke neusporiadané reťazce namiesto čistých čísel.
Žiadny nový model nie je trénovaný. Všetko beží na univerzálnych LLM (GPT-3.5-turbo, GPT-4o-mini, Llama-3.1-70B) prostredníctvom promptingu.
Kľúčové myšlienky
- V benchmarku WikiTQ s modelom GPT-4o-mini dosahuje TableMaster 78,13 % v porovnaní s 55,60 % pri Chain-of-Table a 64,73 % pri PoTable na rovnakom modeli — čo predstavuje zlepšenie o 13,40 bodu oproti ďalšej najlepšej základnej línii (baseline).
- Rovnaký vzorec platí aj pri GPT-3.5-turbo (68,21 % oproti predchádzajúcemu najlepšiemu výsledku ~58 %) a Llama-3.1-70B (77,95 %), čo ukazuje, že zisky nie sú špecifické pre konkrétny model.
- V benchmarku TabFact (overovanie faktov) dosahuje TableMaster s GPT-4o-mini 90,12 % oproti 84,24 % pri Chain-of-Table — ide o menšie, ale konzistentné zlepšenie.
- Ablácia odhaľuje, že odstránenie textového uvažovania škodí najviac (–4,28 %), nasledované odstránením extrakcie štruktúry (–3,38 %). Adaptívne prepínanie medzi režimami je skutočne nosným prvkom.
- Veľkosť tabuľky je dominantným prediktorom zlyhania: výkon degraduje monotónne s rastúcim počtom riadkov, stĺpcov a tokenov, bez ohľadu na model.
- Symbolické uvažovanie degraduje o 31,8 % na zašumených tabuľkách oproti 20,5 % pri textovom uvažovaní — textovo vedená symbolická cesta existuje práve na zmiernenie tohto režimu zlyhania.
- Samotné textové uvažovanie degraduje o 20,1 % pri dotazoch náročných na výpočty oproti 72,4 % pri úlohách bez výpočtov — čo presne ilustruje, prečo na hybridnom prepínaní záleží.