TableMaster: Adaptief redeneren voor tabelbegrip met LLM's
Het Beancount-grootboek is in de kern een gestructureerde tabel: accounts als kolommen, tijd als de ene as, bedragen en valuta's als waarden. Elke agent die hierover redeneert, moet doen wat TableMaster doet — de juiste rijen en kolommen vinden, begrijpen wat de getallen betekenen en kiezen of er symbolisch moet worden gerekend of in taal moet worden geredeneerd. TableMaster van Lang Cao en Hanbing Liu (arXiv:2501.19378) is de meest capabele pipeline voor tabelbegrip die ik tot nu toe heb gezien zonder fine-tuning, en ik wilde begrijpen of het de stand van de techniek daadwerkelijk op een principiële manier vooruithelpt of alleen maar prompting-heuristieken stapelt totdat de benchmark beweegt.
De paper
TableMaster is een op prompting gebaseerd framework dat vier specifieke tekortkomingen aanpakt die LLM's vertonen bij het beantwoorden van vragen over tabellen: ze hebben moeite om de relevante cel in een grote tabel te vinden, ze missen semantische context die in kolomkoppen is gecodeerd, ze hallucineren rekenwerk wanneer ze in platte tekst redeneren, en ze falen wanneer symbolisch redeneren (SQL, Python) stuit op ruis of gemengde datatypes. De auteurs reageren op elke tekortkoming met een specifieke module, samengevoegd in een pipeline van drie fasen. Fase één bouwt een "tabel-van-focus" — een gesnoeide subtabel die alleen de rijen en kolommen bevat die relevant zijn voor de query — met behulp van door LLM gerangschikte kolomopzoeking en op SQL gebaseerde rijfiltering. Fase twee verbaliseert deze subtabel naar natuurlijke taal en controleert of het geëxtraheerde segment daadwerkelijk voldoende is om de vraag te beantwoorden, en breidt dit iteratief uit als dat niet het geval is. Fase drie past adaptief redeneren toe: een LLM beslist per query of er chain-of-thought moet worden uitgevoerd over de geverbaliseerde beschrijving of dat er Python of SQL moet worden gegenereerd en uitgevoerd, waarbij het symbolische pad wordt geleid door de beschrijving in natuurlijke taal om gevallen aan te pakken waarin de tabelwaarden rommelige strings zijn in plaats van schone numerieke gegevens.
Er is geen nieuw model getraind. Alles draait op algemene LLM's (GPT-3.5-turbo, GPT-4o-mini, Llama-3.1-70B) via prompting.
Kernideeën
- Op WikiTQ met GPT-4o-mini behaalt TableMaster 78,13%, vergeleken met 55,60% voor Chain-of-Table and 64,73% voor PoTable op hetzelfde model — een verbetering van 13,40 punten ten opzichte van de op één na beste baseline.
- Hetzelfde patroon geldt voor GPT-3.5-turbo (68,21% vs. eerdere beste ~58%) en Llama-3.1-70B (77,95%), wat aantoont dat de winst niet modelspecifiek is.
- Op TabFact (feitverificatie) behaalt TableMaster 90,12% met GPT-4o-mini vs. 84,24% voor Chain-of-Table — een kleinere maar consistente verbetering.
- De ablatie-studie onthult dat het verwijderen van tekstueel redeneren de meeste schade aanricht (–4,28%), gevolgd door het verwijderen van structuurextractie (–3,38%). De adaptieve schakeling tussen modi is echt essentieel.
- Tabelgrootte is de belangrijkste voorspeller van falen: de prestaties nemen monotoon af naarmate het aantal rijen, kolommen en tokens toeneemt, ongeacht het model.
- Symbolisch redeneren verslechtert met 31,8% bij tabellen met veel ruis vs. 20,5% voor tekstueel redeneren — het tekstgestuurde symbolische pad bestaat precies om deze faalmodus te verzachten.
- Tekstueel redeneren alleen verslechtert met 20,1% bij berekeningsintensieve queries vs. 72,4% bij niet-berekeningstaken — wat precies illustreert waarom de hybride schakeling belangrijk is.
Wat standhoudt — en wat niet
De diagnose van de vier uitdagingen is goed gemotiveerd en sluit nauw aan bij reële faalgevallen. De ablatie is eerlijk: het verwijderen van elk component schaadt het resultaat, waarbij de omvang evenredig is aan hoe intensief dat component daadwerkelijk werd gebruikt. Dat is sterker dan de gebruikelijke ablatie waarbij het verwijderen van componenten niets verandert omdat het model heeft geleerd eromheen te werken.
Wat ik moeilijker te beoordelen vind, is de adaptieve redeneer-classificator zelf. De beslissing of een query naar tekst of code moet worden geleid, wordt door de LLM genomen via prompting — de paper rapporteert niet hoe vaak deze routering correct is, wat er gebeurt als het misgaat (bijv. een berekening naar tekst sturen), of dat een eenvoudige regel (bevat de query rekenkundige operatoren?) vergelijkbaar zou presteren. Gezien het feit dat tekstueel redeneren de grootste bijdrage levert in de ablatie, vermoed ik dat de meeste queries standaard het tekstpad volgen en dat de symbolische tak een kleiner deel voor zijn rekening neemt dan de context suggereert.
De vergelijking met Chain-of-Table is ook enigszins opgeblazen door de context. De oorspronkelijke evaluatie van Chain-of-Table maakte gebruik van PaLM 2 en GPT-3.5 — de 55,60% voor Chain-of-Table getoond voor GPT-4o-mini kan wijzen op een gebrek aan fijnafstemming van de prompts van Chain-of-Table voor dat specifieke model, in plaats van een echt architectonisch voordeel. Dit maakt het resultaat niet ongeldig, maar het betekent dat het genoemde gat gelezen moet worden als een bovengrens van de werkelijke verbetering.
De paper heeft sinds januari 2025 zes herzieningen ondergaan, wat ongebruikelijk is. De reikwijdte is beperkt tot Engelstalige datasets en tabellen tot enkele honderden rijen. Er wordt geen analyse gepresenteerd van de kosten-overhead — elke query vereist nu meerdere LLM-aanroepen (kolomrangschikking, rij-SQL, toereikendheidscontrole, verbalisering, routering, redeneren), en bij prijzen voor frontier-modellen loopt dat snel op.
Waarom dit belangrijk is voor financiële AI
De faalmodi die TableMaster aanpakt, zijn precies de faalmodi die ik verwacht bij agents voor Beancount-grootboeken. Een grootboek met drie jaar aan transacties over 40 accounts is een grote, semantisch rijke tabel — "wat was mijn netto-inkomen uit freelance werk in Q3 2023?" vereist het vinden van de juiste accounts (kolomopzoeking), filteren op datum (rij-opzoeking), begrijpen dat "freelance" verwijst naar verschillende accountnamen (semantische verrijking) en het nauwkeurig optellen van bedragen (symbolisch rekenen). De pipeline van TableMaster, toegepast op een beanquery-interface, zou precies deze stappen aanpakken.
De beperking die het meest telt voor grootboeken is schaal. WikiTQ-tabellen hebben hooguit een paar dozijn rijen en een handvol kolommen; een echt meerjarig Beancount-grootboek heeft duizenden boekingen. De paper laat zien dat de prestaties monotoon afnemen met de tabelgrootte en test niet verder dan een paar honderd rijen. De extractie van de tabel-van-focus is bedoeld om dit aan te pakken, maar de op SQL gebaseerde rijfilter is zelf een door een LLM gegenereerde query over de volledige tabel — waarmee het moeilijke probleem wordt verplaatst in plaats van opgelost. De wisselwerking met hiërarchisch geheugen in MemGPT-stijl of met een vooraf geïndexeerde beanquery-laag is de natuurlijke volgende stap.
Het tekstgestuurde symbolische pad is direct toepasbaar op Beancount. Bedragen in een grootboek zijn vaak omgeven door metadata (valutacodes, lot-annotaties, kostprijsmarkers) die een naïeve Python-float-parser zouden laten falen. Het verankeren van de codegeneratie in een beschrijving in natuurlijke taal van wat de code zou moeten berekenen, is een verstandige mitigatie, hoewel dit systematisch moet worden geëvalueerd op echte Beancount-exportformaten.
Wat je nu kunt lezen
- H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables (arXiv:2407.05952) — de meest directe voorloper van de adaptieve routering van TableMaster, met een tweefasige kolom-en-dan-rij-extractiestrategie; de moeite waard om de architecturen direct te vergelijken om te begrijpen wat TableMaster toevoegt.
- AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — hoewel TableMaster zich richt op QA, is de tabelrepresentatie en normalisatie-pipeline even relevant voor anomaliedetectie; de op waarschijnlijkheid gebaseerde scoring van AnoLLM heeft een vergelijkbare voorverwerkingsfase nodig.
- CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning (arXiv:2604.10973) — lijkt het idee van grof-naar-fijn extractie uit te breiden naar multimodale tabellen; relevant als visualisaties van Beancount-grootboeken (grafieken, PDF-afschriften) moeten worden afgestemd met gestructureerde tekstboekingen.
