TableLlama: Dokáže otvorený model so 7B parametrami konkurovať GPT-4 v porozumení tabuliek?
Záznam MAC-SQL z minulého týždňa ma priviedol k úvahám o najslabšom článku agentov založených na tabuľkách: schopnosti základného modelu porozumieť štruktúre a sémantike tabuľky ešte predtým, než vôbec vygeneruje dopyt. TableLlama (NAACL 2024) útočí priamo na túto vrstvu – nie vylepšovaním rozhrania pre dopyty, ale budovaním všeobecného open-source modelu, ktorý zvládne širokú škálu tabuľkových úloh bez inžinierstva špecifického pre danú úlohu. Čítam to práve teraz, pretože je to najpriamejšia odpoveď na otázku, či otvorený 7B model môže skutočne konkurovať GPT-4 v problémoch s porozumením tabuliek, ktorým by čelil agent pre Beancount.
Článok
TableLlama od Tianshu Zhanga, Xiang Yue, Yifei Li a Huan Sun z Ohio State University dolaďuje model Llama 2 (7B) na novej sade dát pre ladenie inštrukcií s názvom TableInstruct – 2,6 milióna príkladov zahŕňajúcich 11 tabuľkových úloh. Na zvládnutie dlhého kontextu, ktorý tabuľky vyžadujú, využívajú LongLoRA, prístup k rozšíreniu efektívnemu z hľadiska parametrov, ktorý natiahne kontextové okno na 8 000 tokenov bez úplného pretrénovania. Hodnotenie pokrýva osem úloh v rámci domény (anotácia typov stĺpcov, extrakcia vzťahov, prepájanie entít, augmentácia schémy, vypĺňanie riadkov, QA v hierarchických tabuľkách, QA v zvýraznených bunkách a overovanie faktov) plus šesť súborov dát mimo domény, na ktorých model nikdy nebol trénovaný.
Hlavné tvrdenie: jediný doladený otvorený model sa môže vyrovnať alebo prekonať stav techniky (SOTA) špecifický pre danú úlohu na väčšine benchmarkov v rámci domény a prekonať základný model Llama 2 o 5–44 absolútnych bodov mimo domény – vrátane zníženia straty na GPT-4 v niekoľkých úlohách.
Kľúčové myšlienky
- V úlohách v rámci domény TableLlama rozhodne poráža GPT-4 v úlohách rozpoznávania štruktúry: anotácia typov stĺpcov (F1 94,39 vs 31,75), extrakcia vzťahov (F1 91,95 vs 52,95), FeTaQA BLEU (39,05 vs 21,70) a presnosť vykonania HiTab (64,71 vs 48,40).
- Pri súboroch dát mimo domény sa obraz obracia. GPT-4 vedie v presnosti WikiTQ (68,40 vs 35,01) a HybridQA (58,60 vs 39,38) – v oboch úlohách, ktoré si vyžadujú kompozičné viacúrovňové (multi-hop) uvažovanie nad tabuľkami namiesto štrukturálneho porovnávania vzorov.
- WikiSQL ostro odhaľuje medzeru v generovaní dopytov: TableLlama dosahuje 50,48 % oproti SOTA 92,70 %. Tento 42-bodový rozdiel je najdôležitejším číslom v praxi pre každého, kto buduje rozhrania NL-to-query.
- LongLoRA je tu kľúčovým nosným prvkom. Finančné tabuľky sú dlhé. Bez rozšíreného kontextového okna by celá táto trieda úloh bola pre 7B model nedosiahnuteľná.
- Autori priznávajú, že obmedzenia výpočtového výkonu ich limitovali na veľkosť 7B, pričom varianty 13B a 70B zostali nezhodnotené.
Čo obstojí – a čo nie
Nastavenie benchmarku mieša hrušky s jablkami spôsobom, ktorý si zaslúži skúmanie. Porovnanie v rámci domény stavia doladený model TableLlama proti zero-shot GPT-4. Pri úlohách založených na TURL, ako je anotácia typov stĺpcov, skóre GPT-4 31,75 F1 neznamená, že GPT-4 v zásade nerozumie typom stĺpcov – znamená to, že zero-shot prompt bez doladenia špecifického pre formát zlyháva na súbore dát, ktorý očakáva veľmi konkrétny formát výstupu. Čestným porovnaním sú úlohy mimo domény, kde ani jeden z modelov nevidel trénovacie dáta, a tam je rozdiel pokorný: presnosť WikiTQ 35,01 vs 68,40.
WikiTQ je správnym záťažovým testom, pretože vyžaduje otázky typu „Ktorá krajina získala najviac medailí v disciplínach, kde bol predchádzajúci rekord stanovený pred rokom 1990?“ – skutočné kompozičné uvažovanie naprieč bunkami tabuľky. 33-bodový deficit TableLlama vo WikiTQ oproti GPT-4 je najjasnejším signálom, že ladenie inštrukcií na štrukturálnych úlohách sa automaticky neprenáša do relačného uvažovania.
Úspechy v augmentácii schémy a prepájaní entít sú skutočné a zmysluplné – tieto úlohy skutočne vyžadujú porozumenie štruktúre tabuľky spôsobom, s ktorým má zero-shot prompt GPT-4 problémy. Sú však tiež bližšie k vyhľadávaniu (retrieval) než k uvažovaniu, čo obmedzuje mieru zovšeobecnenia týchto výsledkov.
Samostatná obava: dataset TableInstruct s 2,6 miliónmi príkladov predstavuje významné inžinierske úsilie, ale spája veľmi odlišné typy úloh do jedného formátu inštrukcií. Chýba ablácia (odstraňovanie zložiek), ktorá by ukázala, ktoré typy úloh sa navzájom ovplyvňujú alebo ktoré sú nosné pre zisky mimo domény. Vlastný nadväzujúci benchmark skupiny z OSU (TableBench, AAAI 2025) zistil, že modely doladené na TableInstruct dosahujú výkon porovnateľný s GPT-3.5, ale stále zaostávajú za GPT-4 – čo značne tlmí optimizmus pôvodného článku.
Prečo je to dôležité pre finančnú AI
Účtovné knihy Beancount sú štruktúrované tabuľky: každý zápis má dátum, účet, sumu a voliteľné metadáta. Tabuľkové úlohy v tomto článku sa priamo mapujú na operácie, ktoré musí agent pre Beancount vykonávať. Anotácia typov stĺpcov sa mapuje na pochopenie toho, ktoré účty patria k akému typu účtu (Aktíva, Pasíva, Výdavky). Prepájanie entít sa mapuje na rozlišovanie názvov príjemcov v nekonzistentných popisoch transakcií. A medzera vo WikiSQL sa presne mapuje na problém rozhrania NL pre beanquery.
Výsledky mi tu poskytujú kalibrovaný pohľad: doladený 7B model dokáže rozpoznať štruktúru účtovnej knihy dostatočne spoľahlivo na to, aby bol užitočný, ale zatiaľ mu nemožno dôveriť pri preklade voľných otázok do správnych výrazov beanquery bez modelu s vyššími schopnosťami v rámci procesu. 50 % presnosť WikiSQL (oproti 93 % SOTA) znamená, že rozhranie beanquery založené len na otvorenom modeli by pri neznámych formuláciách otázok generovalo nesprávne dopyty zhruba v polovici prípadov. Pre agenta s právom zápisu je táto miera zlyhania príliš vysoká. Pre dopytovacie rozhranie len na čítanie s ľudskou kontrolou by to mohlo byť prijateľné ako prvý návrh.
Príspevok LongLoRA je priamo použiteľný: viacročné účtovné knihy Beancount môžu ľahko presiahnuť 8 000 tokenov a tento prístup ukazuje, ako doladiť modely pre dlhé tabuľky bez prohibitívne vysokých nárokov na výpočet.
Čo číta ť ďalej
- TableBench: Komplexný a zložitý benchmark pre zodpovedanie otázok nad tabuľkami (arXiv:2408.09174, AAAI 2025) – nadväzujúca práca skupiny z OSU, ktorá testuje viac ako 30 LLM na zložitejších tabuľkových QA a zisťuje, že rozdiel medzi otvorenými modelmi a GPT-4 pretrváva aj po doladení na TableInstruct.
- TAPEX: Predtrénovanie tabuliek prostredníctvom učenia neurónového SQL vykonávača (arXiv:2107.07653, ICLR 2022) – predtrénovanie na syntetickom vykonávaní SQL ako kontrast k ladeniu inštrukcií; dôležitý východiskový bod pre diskusiu o predtrénovaní verzus dolaďovaní pri porozumení tabuliek.
- Prehodnotenie ladenia inštrukcií pre tabuľky (arXiv:2501.14693) – nedávna práca spochybňujúca, či sa štandardný recept TableInstruct skutočne zovšeobecňuje a na akých voľbách zloženia dát najviac záleží.
