TableMaster: Raonament adaptatiu per a la comprensió de taules amb LLM
El llibre major de Beancount és, en el fons, una taula estructurada: els comptes com a columnes, el temps com un eix, els imports i les monedes com a valors. Qualsevol agent que hi raoni ha de fer el mateix que TableMaster: trobar les files i columnes adequades, entendre què signifiquen els números i triar si calcular simbòlicament o raonar en llenguatge natural. El TableMaster de Lang Cao i Hanbing Liu (arXiv:2501.19378) és el pipeline de comprensió de taules més capaç que he vist fins ara sense ajust fin (fine-tuning), i volia entendre si realment avança l'estat de l'art de manera fonamentada o si simplement apila heurístiques de promps fins que el banc de proves es mou.
L'article
TableMaster és un marc de treball basat en promps que aborda quatre modes d'error específics que mostren els LLM en la resposta a preguntes tabulars: tenen dificultats per localitzar la cel·la rellevant en una taula gran, perden el context semàntic codificat en les capçaleres de les columnes, al·lucinen l'aritmètica quan raonen en text pla i fallen quan el raonament simbòlic (SQL, Python) topa amb dades sorolloses o de tipus mixt. Els autors responen a cada error amb un mòdul dedicat, organitzat en un pipeline de tres etapes. La primera etapa construeix una "taula de focus" —una subtaula reduïda que conté només les files i columnes rellevants per a la consulta— utilitzant la cerca de columnes classificada per LLM i el filtratge de files basat en SQL. La segona etapa verbalitza aquesta subtaula en llenguatge natural i comprova si el fragment extret és realment suficient per respondre la pregunta, ampliant-lo iterativament si no ho és. La tercera etapa aplica el raonament adaptatiu: un LLM decideix per cada consulta si executa una cadena de pensament sobre la descripció verbalitzada o si genera i executa Python o SQL, amb el camí simbòlic guiat per la descripció en llenguatge natural per gestionar els casos on els valors de la taula són cadenes de text desordenades en lloc de dades numèriques netes.
No s'ha entrenat cap model nou. Tot s'executa en LLM de propòsit general (GPT-3.5-turbo, GPT-4o-mini, Llama-3.1-70B) mitjançant promps.
Idees clau
- A WikiTQ amb GPT-4o-mini, TableMaster assoleix el 78,13%, en comparació amb el 55,60% de Chain-of-Table i el 64,73% de PoTable amb el mateix model, una millora de 13,40 punts respecte a la següent millor línia base.
- El mateix patró es manté amb GPT-3.5-turbo (68,21% vs. el millor anterior ~58%) i Llama-3.1-70B (77,95%), demostrant que els guanys no són específics d'un model.
- A TabFact (verificació de fets), TableMaster arriba al 90,12% amb GPT-4o-mini vs. el 84,24% de Chain-of-Table, una millora menor però constant.
- L'ablació revela que eliminar el raonament textual és el que més perjudica (–4,28%), seguit de l'eliminació de l'extracció d'estructura (–3,38%). El canvi adaptatiu entre modes és realment fonamental.
- La mida de la taula és el predictor dominant del fracàs: el rendiment es degrada de manera monòtona a mesura que augmenten el nombre de files, columnes i tokens, independentment del model.
- El raonament simbòlic es degrada un 31,8% en taules amb soroll vs. el 20,5% del raonament textual; el camí simbòlic guiat per text existeix precisament per suavitzar aquest mode d'error.
- El raonament textual per si sol es degrada un 20,1% en consultes amb molts càlculs vs. el 72,4% en tasques sense càlculs, il·lustrant exactament per què és important el canvi híbrid.
Què funciona — i què no
El diagnòstic dels quatre reptes està ben motivat i es correspon clarament amb casos d'error reals. L'ablació és honesta: eliminar qualsevol component perjudica, amb una magnitud proporcional a l'ús real d'aquell component. Això és més sòlid que l'ablació habitual on eliminar components no canvia res perquè el model ha après a evitar-los.
El que trobo més difícil d'avaluar és el mateix classificador de raonament adaptatiu. La decisió sobre si dirigir una consulta a text o a codi la pren l'LLM mitjançant promps; l'article no informa de quina freqüència aquest encaminament és correcte, què passa quan falla (per exemple, dirigeix un càlcul a text) o si una regla senzilla (conté la consulta operadors aritmètics?) funcionaria de manera comparable. Atès que el raonament textual és el major contribuent a l'ablació, sospito que la majoria de consultes van per defecte al camí del text i la branca simbòlica té un pes menor del que suggereix l'enfocament.
La comparació amb Chain-of-Table també està una mica inflada pel context. L'avaluació original de Chain-of-Table utilitzava PaLM 2 i GPT-3.5; la xifra del 55,60% de Chain-of-Table mostrada per a GPT-4o-mini podria reflectir una manca d'ajust dels promps de Chain-of-Table per a aquest model més que un avantatge arquitectònic genuí. Això no invalida el resultat, però significa que la diferència principal s'hauria de llegir com un límit superior de la millora real.
L'article ha passat per sis revisions des del gener de 2025, cosa que és inusual. L'abast es restringeix a conjunts de dades en anglès i taules de fins a uns pocs centenars de files. No es presenta cap anàlisi del cost addicional; cada consulta requereix ara múltiples crides a l'LLM (classificació de columnes, SQL de files, comprovació de suficiència, verbalització, encaminament, raonament), i amb els preus dels models més avançats, això s'acumula ràpidament.
Per què això és important per a la IA financera
Els modes d'error que aborda TableMaster són exactament els que espero que trobin els agents de llibres majors de Beancount. Un llibre major amb tres anys de transaccions en 40 comptes és una taula gran i semànticament rica: "quins van ser els meus ingressos nets del treball autònom el tercer trimestre de 2023?" requereix trobar els comptes adequats (cerca de columnes), filtrar per data (cerca de files), entendre que "treball autònom" s'associa a diversos noms de comptes (enriquiment semàntic) i sumar els imports amb precisió (aritmètica simbòlica). El pipeline de TableMaster, aplicat a una interfície de beanquery, atacaria precisament aquests passos.
La limitació que més importa per als llibres majors és l'escala. Les taules de WikiTQ tenen com a màxim unes poques desenes de files i un grapat de columnes; un llibre major real de Beancount de diversos anys té milers d'entrades. L'article mostra que el rendiment es degrada monòtonament amb la mida de la taula i no fa proves més enllà d'uns pocs centenars de files. L'extracció de la taula de focus pretén abordar-ho, però el filtre de files basat en SQL és en si mateix una consulta generada per LLM sobre tota la taula, traslladant el problema complex en lloc de resoldre'l. La interacció amb la memòria jeràrquica estil MemGPT o amb una capa de beanquery pre-indexada és el següent pas natural.
El camí simbòlic guiat per text és directament aplicable a Beancount. Els imports dels llibres majors sovint estan envoltats de metadades (codis de moneda, anotacions de lots, marcadors de base de cost) que farien fallar un analitzador de números de punt flotant de Python senzill. Fonamentar la generació de codi en una descripció en llenguatge natural del que el codi hauria de calcular és una mitigació assenyada, tot i que necessita una avaluació sistemàtica en formats d'exportació reals de Beancount.
Què llegir a continuació
- H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables (arXiv:2407.05952) — el precursor més directe de l'encaminament adaptatiu de TableMaster, amb una estratègia d'extracció en dues etapes (columna i després fila); val la pena comparar les arquitectures directament per entendre què hi afegeix TableMaster.
- AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — tot i que TableMaster es dirigeix a QA, el pipeline de representació i normalització de taules és igualment rellevant per a la detecció d'anomalies; la puntuació basada en la probabilitat d'AnoLLM necessita una etapa de preprocessament similar.
- CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning (arXiv:2604.10973) — sembla estendre la idea d'extracció de gruixut a fi a taules multimodals; rellevant si les visualitzacions del llibre major de Beancount (gràfics, extractes en PDF) s'han de conciliar amb les entrades de text estructurat.
