Prejsť na hlavný obsah

TAT-LLM: Doladený LLaMA 2 pre diskrétne uvažovanie nad finančnými tabuľkami a textom

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Po týždni zameranom na vyhľadávanie a injekciu znalostí som sa chcel pozrieť na druhú stranu otázky: čo skutočne prináša cielené doladenie (fine-tuning), keď je úloha dobre definovaná? TAT-LLM (arXiv:2401.13223, ICAIF 2024) je jednou z jasnejších odpovedí: dolaďte LLaMA 2 so štruktúrovanou pipeline na finančných tabuľkovo-textových QA benchmarkoch a porazte GPT-4. Jadro problému spočíva, ako zvyčajne, v detailoch.

Článok

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li a Tat-Seng Chua z NExT++ na NUS predstavujú TAT-LLM, model LLaMA 2 doladený na diskrétne uvažovanie nad hybridnými tabuľkovými a textovými údajmi. Kľúčovým problémom je odpovedanie na numerické otázky o finančných správach — ten druh otázok, kde musíte nájsť konkrétny riadok v tabuľke, extrahovať dve čísla a vykonať viacstupňovú aritmetickú operáciu, aby ste dospeli k odpovedi. To je presne to, čo ľudia robia pri čítaní výročných správ 10-K.

Namiesto riadenia veľkého modelu end-to-end autori rozkladajú úlohu do troch explicitných krokov: Extractor (Extraktor), ktorý identifikuje relevantné numerické dôkazy z dokumentu, Reasoner (Uvažovateľ), ktorý napíše aritmetický výraz, a Executor (Vykonávač), ktorý výraz deterministicky vykoná. Tréningové údaje sú automaticky generované z existujúcich datasetov anotovaných expertmi — FinQA, TAT-QA a TAT-DQA — anotovaním každej inštancie medzikrokmi extrakcie a uvažovania. Doladenie využíva LoRA naprieč tromi škálami LLaMA 2: 7B, 13B a 70B.

Kľúčové myšlienky

  • Rozklad pipeline prekonáva end-to-end: Externý Executor (deterministická aritmetika) pridáva len pre model 7B +16,66 bodov EM na FinQA. Aritmetika nie je pre model náročnejšia na vykonanie — je jednoducho katastrofálne nespoľahlivá, keď prebieha v prirodzenom jazyku.
  • 7B prekonáva GPT-4 na všetkých troch benchmarkoch: TAT-LLM 7B dosahuje 64,60 % EM na FinQA (oproti 63,91 % pri GPT-4), 74,56 % EM na TAT-QA (oproti 71,92 %) a 69,45 % EM na TAT-DQA (oproti 64,46 %). Rozdiel pri TAT-DQA je s takmer 5 bodmi najpresvedčivejší.
  • Extrakcia je obmedzujúcim režimom zlyhania: Analýza chýb ukazuje, že 48 % chýb možno vystopovať k nesprávnej extrakcii dôkazov — model identifikuje nesprávny riadok, nesprávny stĺpec alebo nesprávne prečíta číslo kvôli neznámej finančnej terminológii. Len 19 % tvoria nesprávne operátory.
  • Škála pomáha v obmedzenej miere: Spoločne trénovaný variant 70B (TAT-LLM-All) zvyšuje FinQA na 76,81 % EM a TAT-QA na 81,42 % F1, čo sú významné zlepšenia. Ale model 7B už prekonáva GPT-4, čo naznačuje, že štruktúra pipeline je dôležitejšia ako počet parametrov.
  • Ľudskí experti zostávajú ďaleko vpredu: Na TAT-QA je ľudský výkon 90,8 % F1; najlepší výsledok TAT-LLM je 81,42 % F1. Priepasť je reálna a v článku je priznaná.

Čo obstojí — a čo nie

Technický kľúčový prínos je solídny: outsourcovanie aritmetiky deterministickému vykonávaču je jednoznačne správnou voľbou a ablácia to presvedčivo dokazuje. Toto je známe poučenie z PAL a podobných prác, ale vidieť to kvantifikované (+16,66 bodov) na špecifickom finančnom benchmarku je cenným potvrdením.

V čom som skeptickejší, je tvrdenie v nadpise o „prekonaní GPT-4“. Rozdiel v rámci FinQA je 0,69 bodov EM — čo je v podstate v rámci odchýlky a čísla GPT-4 odrážajú zero-shot alebo mierne usmernené hodnotenie, nie GPT-4 s chain-of-thought, few-shot príkladmi alebo vlastným interpretom kódu. Usmernený GPT-4 s použitím nástroja Python by tieto čísla takmer určite prekonal. Porovnanie nie je nesprávne, ale nie je to úplne príbeh o tom, že „špecializácia vyhráva“, ako naznačuje zhrnutie.

Existuje tiež značná obava z úniku dát pri hodnotení (evaluation leaks). Model je doladený na tréningových častiach FinQA, TAT-QA a TAT-DQA a hodnotený na ich testovacích častiach. To je úzke nastavenie v rámci distribúcie. Článok neobsahuje žiadnu nezávislú finančnú QA úlohu, ktorú model počas tréningu nikdy nevidel, takže generalizácia na nové typy dokumentov alebo nové aritmetické vzorce zostáva nedokázaná.

Kontextový limit 4 096 tokenov je praktickou prekážkou pre skutočné finančné správy. Typická správa 10-K má viac ako 100 strán; dokonca aj jediná štvrťročná správa často presahuje 4 096 tokenov. Model tak, ako je popísaný, nedokáže spracovať vstupy, pre ktoré bol navrhnutý, bez rozdelenia na časti (chunking), a článok sa nezaoberá tým, ako sa extrakcia zhoršuje, keď je dôkaz rozložený vo viacerých častiach.

Prečo je to dôležité pre finančnú AI

Rozklad na Extractor-Reasoner-Executor je priamo použiteľný pre agentov Beancount. Keď sa používateľ spýta „aké boli moje celkové výdavky na jedlo v Q1 2025 v porovnaní s Q1 2024?“, prirodzená štruktúra je: vyhľadať relevantné transakcie (Extract), vytvoriť agregačný výraz (Reason), vykonať ho voči účtovnej knihe (Execute). Analýza chýb TAT-LLM prináša konkrétnu predpoveď: krok extrakcie je miestom, kde agent Beancount najčastejšie zlyhá — nesprávne kategórie účtov, vynechané transakcie, nesprávne prečítané sumy — a nie aritmetika.

Prístup doladenia pomocou LoRA je relevantný aj pre každého, kto buduje špecifický model Beancount. Stratégia generovania tréningových údajov — vziať páry QA anotované expertmi a doplniť ich o medzikroky — je presne spôsob, akým by sa dal vytvoriť dataset uvažovania špecifický pre účtovnú knihu. Máte zdrojové údaje o pohyboch v knihe; môžete automaticky generovať n-tice (otázka, extrakcia, výraz, odpoveď).

Kontextový limit je najväčšou blokádou. Produkčný agent Beancount musí byť schopný uvažovať nad transakciami za celé roky. Model z článku taký nie je; je to silný základ pre QA na krátkych dokumentoch, ktorý sa musí rozšíriť o chunking, vyhľadávanie alebo väčšie kontextové okno, aby sa stal prakticky použiteľným.

Čo si prečítať ďalej

  • FinQA (arXiv:2109.00122, EMNLP 2021) — pôvodný benchmark, na ktorom bol TAT-LLM hodnotený; jeho prečítanie objasňuje, čo presne znamená „diskrétne uvažovanie nad finančnými údajmi“ a ako vyzeral predchádzajúci stav techniky (SOTA) pred nástupom LLM.
  • TAGOP (súčasť článku TAT-QA, arXiv:2105.07624, ACL 2021) — model operátorov zohľadňujúci tabuľky, ktorý definoval úlohu TAT-QA; pochopenie toho, ako vyzerá výber operátorov založený na pravidlách, poskytuje referenčný bod pre to, čo nahrádza krok Reasoner založený na LLM.
  • AuditCopilot (arXiv:2512.02726) — testuje LLaMA a Gemma v oblasti detekcie anomálií Journal Entry Test na skutočných údajoch z účtovnej knihy; prirodzenou následnou otázkou po TAT-LLM je, či je rovnaký prístup doladenia prenosný na detekciu anomálií namiesto QA.