Skip to main content

TAT-LLM: Ge-fined-tunde LLaMA 2 voor discreet redeneren over financiële tabellen en tekst

· 6 min read
Mike Thrift
Mike Thrift
Marketing Manager

Na een week gericht op retrieval en kennisinjectie, wilde ik kijken naar de andere kant van de vraag: wat levert gerichte fine-tuning daadwerkelijk op wanneer de taak goed gedefinieerd is? TAT-LLM (arXiv:2401.13223, ICAIF 2024) is een van de duidelijkere antwoorden: fine-tune LLaMA 2 met een gestructureerde pipeline op financiële tabel-tekst QA-benchmarks en versla GPT-4. De crux zit, zoals gebruikelijk, in de details.

Het artikel

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li en Tat-Seng Chua van NExT++ aan de NUS presenteren TAT-LLM, een LLaMA 2-model dat is ge-fine-tund voor discreet redeneren over hybride tabel- en tekstgegevens. Het kernprobleem is het beantwoorden van numerieke vragen over financiële rapporten — het soort vragen waarbij je een specifieke rij in een tabel moet vinden, twee getallen moet extraheren en een rekenkundige bewerking in meerdere stappen moet uitvoeren om tot een antwoord te komen. Dit is precies wat mensen doen bij het lezen van 10-K jaarverslagen.

In plaats van een groot model end-to-end aan te sturen, ontleden de auteurs de taak in drie expliciete stappen: een Extractor die relevant numeriek bewijs uit het document identificeert, een Reasoner die een rekenkundige expressie schrijft, en een Executor die de expressie deterministisch uitvoert. Trainingsgegevens worden automatisch gegenereerd uit bestaande, door experts geannoteerde datasets — FinQA, TAT-QA en TAT-DQA — door elke instantie te annoteren met de tussenliggende extractie- en redeneerstappen. De fine-tuning maakt gebruik van LoRA over drie LLaMA 2-schalen: 7B, 13B en 70B.

Kernideeën

  • Pipeline-ontleding verslaat end-to-end: De externe Executor (deterministische rekenkunde) voegt alleen al voor het 7B-model +16,66 EM-punten toe op FinQA. Rekenkunde is niet moeilijker voor het model om te doen — het is simpelweg catastrofaal onbetrouwbaar wanneer het in natuurlijke taal gebeurt.
  • 7B verslaat GPT-4 op alle drie de benchmarks: TAT-LLM 7B scoort 64,60% EM op FinQA (vs 63,91% van GPT-4), 74,56% EM op TAT-QA (vs 71,92%) en 69,45% EM op TAT-DQA (vs 64,46%). Het verschil bij TAT-DQA is met bijna 5 punten het meest overtuigend.
  • Extractie is de beperkende faalmodus: Foutenanalyse toont aan dat 48% van de fouten te herleiden is naar onjuiste extractie van bewijs — het model identificeert de verkeerde rij, de verkeerde kolom, of leest een getal verkeerd door onbekende financiële terminologie. Slechts 19% zijn onjuiste operatoren.
  • Schaal helpt in beperkte mate: De gezamenlijk getrainde 70B-variant (TAT-LLM-All) verhoogt FinQA naar 76,81% EM and TAT-QA naar 81,42% F1, wat betekenisvolle verbeteringen zijn. Maar het 7B-model verslaat GPT-4 al, wat suggereert dat de pipeline-structuur belangrijker is dan het aantal parameters.
  • Menselijke experts blijven ver voorop: Op TAT-QA is de menselijke prestatie 90,8% F1; het beste resultaat van TAT-LLM is 81,42% F1. De kloof is reëel en wordt in het artikel erkend.

Wat standhoudt — en wat niet

De technische kernbijdrage is solide: het uitbesteden van rekenkunde aan een deterministische executor is overduidelijk de juiste keuze, en de ablatie bewijst dit overtuigend. Dit is een bekende les van PAL en vergelijkbaar werk, maar het gekwantificeerd zien (+16,66 punten) op een specifiek financiële benchmark is een waardevolle bevestiging.

Waar ik sceptischer over ben, is de bewering in de kop over het "beter presteren dan GPT-4". De marge op FinQA is 0,69 EM-punten — in feite binnen de foutmarge, en de GPT-4-cijfers weerspiegelen zero-shot of licht aangestuurde evaluatie, niet GPT-4 met chain-of-thought, few-shot voorbeelden of de eigen code-interpreter. Een aangestuurde GPT-4 met Python-toolgebruik zou deze cijfers vrijwel zeker overtreffen. De vergelijking is niet onjuist, maar het is niet helemaal het "specialisatie wint"-verhaal dat de samenvatting suggereert.

Er is ook een aanzienlijke zorg over evaluatie-lekken. Het model is ge-fine-tund op trainingssplits van FinQA, TAT-QA en TAT-DQA en geëvalueerd op hun test-splits. Dat is een nauwe in-distributie setting. Het artikel bevat geen onafhankelijke financiële QA-taak die het model nooit heeft gezien tijdens de training, waardoor generalisatie naar nieuwe documenttypes of nieuwe rekenkundige patronen onbewezen blijft.

De contextlimiet van 4.096 tokens is een praktische showstopper voor echte financiële rapporten. Een typisch 10-K verslag telt meer dan 100 pagina's; zelfs een enkel kwartaalbericht overschrijdt vaak de 4.096 tokens. Het model zoals beschreven kan de inputs waarvoor het ontworpen is niet aan zonder chunking, en het artikel gaat niet in op hoe de extractie verslechtert wanneer het bewijsmateriaal over meerdere chunks verspreid is.

Waarom dit belangrijk is voor finance AI

De Extractor-Reasoner-Executor ontleding is direct toepasbaar op Beancount-agents. Wanneer een gebruiker vraagt "wat waren mijn totale uitgaven aan voedsel in Q1 2025 vergeleken met Q1 2024?", is de natuurlijke structuur: zoek de relevante transacties (Extract), bouw een aggregatie-expressie (Reason), voer deze uit tegen het grootboek (Execute). De foutenanalyse van TAT-LLM doet een concrete voorspelling: de extractiestap is waar een Beancount-agent het vaakst zal falen — verkeerde rekeningcategorieën, gemiste transacties, verkeerd gelezen bedragen — en niet de rekenkunde.

De LoRA fine-tuning aanpak is ook relevant voor iedereen die een specifiek Beancount-model bouwt. De strategie voor het genereren van trainingsdata — neem door experts geannoteerde QA-paren en annoteer ze met tussenstappen — is precies hoe je een redeneer-dataset specifiek voor een grootboek zou bouwen. Je hebt de brongegevens van de grootboekmutaties; je kunt automatisch (vraag, extractie, expressie, antwoord) tupels genereren.

De contextlimiet is de grootste blokkade. Een productie-waardige Beancount-agent moet over jaren aan mutaties kunnen redeneren. Het model uit het artikel is dat niet; het is een sterke baseline voor QA op korte documenten die moet worden uitgebreid met chunking, retrieval of een groter contextvenster om praktisch bruikbaar te worden.

Wat nu te lezen

  • FinQA (arXiv:2109.00122, EMNLP 2021) — de originele benchmark waarop TAT-LLM is geëvalueerd; het lezen hiervan verduidelijkt precies wat "discreet redeneren over financiële gegevens" inhoudt en hoe de eerdere SOTA eruitzag vóór LLM's.
  • TAGOP (onderdeel van TAT-QA artikel, arXiv:2105.07624, ACL 2021) — het tabelbewuste operatormodel dat de TAT-QA taak definieerde; begrijpen hoe regelgebaseerde operatorselectie eruitziet biedt een referentiepunt voor wat de op LLM gebaseerde Reasoner-stap vervangt.
  • AuditCopilot (arXiv:2512.02726) — benchmarkt LLaMA en Gemma op het gebied van Journal Entry Test anomaliedetectie over echte grootboekgegevens; de natuurlijke vervolgvraag na TAT-LLM is of dezelfde fine-tuning aanpak overdraagbaar is naar anomaliedetectie in plaats van QA.