Poden els LLM raonar sobre dades tabulars? El que quatre bancs de proves ens diuen sobre la IA financera
Les taules són com pensen els comptables. Un llibre major de Beancount és essencialment una taula: els comptes com a files, les dates i els imports com a columnes, les asseveracions com a restriccions entre cel·les. Així que quan vaig començar a preguntar-me si els LLM podien impulsar agents financers autònoms, em vaig anar trobant amb la mateixa pregunta prèvia: poden si més no llegir una taula de manera fiable? La literatura sobre això és més demolidora del que esperava.
L'article
Fang et al. van publicar "Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding — A Survey" a TMLR 2024 (arXiv:2402.17944). És una taxonomia de 41 pàgines que cobreix tres dominis: la predicció de resultats estructurats a partir de característiques tabulars, la generació de dades tabulars sintètiques i la comprensió de taules prou bé com per respondre preguntes sobre elles. El camí de la comprensió —resposta a preguntes sobre taules (TableQA), verificació de fets i raonament estructural— és on resideix el treball més rellevant per a la IA financera.
L'article que vaig llegir conjuntament, "Table Meets LLM: Can Large Language Models Understand Structured Table Data?" de Sui et al. (WSDM 2024, arXiv:2305.13062), adopta un enfocament més controlat: defineixen un banc de proves de Capacitat de Comprensió Estructural (SUC) amb set tasques estretes —partició de taula, detecció de mida, detecció de cel·les combinades, cerca de cel·les, cerca inversa, recuperació de columnes i recuperació de files— i proven directament el GPT-3.5 i el GPT-4. Sense cadenes de raonament, sense trucs de recuperació. Només: pot el model fer el que demanem?
Idees clau
- La bretxa de format és real i sorprenentment gran. Al banc de proves SUC, la serialització HTML supera el format de llenguatge natural amb separadors en aproximadament un 6,76% globalment. El rànquing —HTML > XML > JSON > Markdown > LN+Sep— es manté constant en totes les tasques. Els fitxers de Beancount estan més a prop de l'extrem del llenguatge natural d'aquest espectre, la qual cosa és un senyal d'alerta.
- La cerca de cel·les és sorprenentment difícil. El GPT-3.5 assoleix només un 44% de precisió en la cerca directa de cel·les (trobar el valor a la fila X, columna Y). El GPT-4 arriba al 73,34% en la mateixa tasca. Per a una operació determinista que una fórmula de full de càlcul gestiona en microsegons, una bretxa de 26 punts percentuals entre models és alarmant.
- Els exemples de pocs intents (few-shot) són fonamentals. Eliminar els exemples d'1 intent (1-shot) dels indicadors (prompts) de SUC va provocar una caiguda de la precisió global del 30,38% en totes les tasques. La comprensió estructural del model està fortament recolzada per la demostració, no realment interioritzada.
- La bretxa entre humans i LLM en TableQA real és enorme. TableBench (arXiv:2408.09174, AAAI 2025) avalua 886 preguntes sobre verificació de fets, raonament numèric, anàlisi de dades i visualització. La precisió humana és del 85,91%. GPT-4-Turbo obté un 40,38%, GPT-4o obté un 42,73%. Els millors models actuals funcionen aproximadament a la meitat del nivell humà en un banc de proves dissenyat per reflectir la complexitat de les taules del món real.
- El col·lapse de la complexitat en els fulls de càlcul financers és sever. FinSheet-Bench (arXiv:2603.07316) prova els LLM en plantilles de fons de capital privat amb una complexitat estructural variable. Les cerques senzilles assoleixen una precisió del 89,1%. Les agregacions complexes cauen al 19,6%. El fitxer de prova més gran (152 empreses, 8 fons) dona una precisió mitjana del 48,6% en tots els models, per sota del 86,2% del fitxer més senzill.
- Les taules llargues trenquen els models de manera categòrica. L'enquesta de TMLR informa que més enllà dels 1000 tòquens, el rendiment del GPT-3 es degrada fins a ser gairebé aleatori. Fins i tot els models amb finestres de context de 200K tenen dificultats amb conjunts de dades massius a causa del cost quadràtic de l'autoatenció sobre seqüències llargues.
Què se sosté — i què no
El banc de proves de Sui et al. està dissenyat acuradament i els números són creïbles. La troballa que l'HTML supera el markdown per a tasques estructurals és contraintuïtiva —el markdown és més compacte i els LLM en veuen més durant l'entrenament— però s'alinea amb el que s'esperaria: l'etiquetatge explícit de l'HTML ofereix al model més punts d'ancoratge per navegar per l'estructura sense haver d'inferir-la.
Del que sóc escèptic: la tècnica d'autoaugment (indicació en dues etapes on la primera demana al model que identifiqui els valors crítics abans de respondre) produeix millores del 0,84–5,68% en bancs de proves derivats com TabFact i ToTTo. Aquests són números reals d'experiments reals, però són marginals. La tècnica no aborda el problema fonamental: és un pegat d'enginyeria d'indicadors a sobre d'una comprensió estructural genuïnament feble.
L'enquesta de TMLR té el problema d'abast comú a totes les enquestes: cobreix tot, des de la predicció tabular (terreny de l'XGBoost) fins a la síntesi de taules generatives i la resposta a preguntes (QA), la qual cosa dilueix l'anàlisi. La secció més útil per als meus propòsits és la del seguiment de QA estructurat, i fins i tot allà l'enquesta cataloga principalment mètodes en lloc de sintetitzar quins són realment fiables.
La troballa de FinSheet-Bench que les agregacions complexes tenen una puntuació del 19,6% és el senyal d'alerta més específic de les finances aquí. L'agregació de carteres, els resums a nivell de fons i les comparacions de diversos períodes són exactament les operacions que fan que la presentació d'informes financers no sigui trivial, i és exactament on els LLM es desmoronen.
Per què això és important per a la IA financera
Els llibres majors de Beancount són taules. Quan un agent autònom llegeix un llibre major per detectar anomalies, generar informes o decidir sobre una anotació, està realitzant un raonament tabular. L'evidència suggereix que els LLM actuals gestionen les cerques senzilles raonablement bé (recuperació de cel·les al 73% per al GPT-4) però col·lapsen en les operacions que més importen: l'agregació de múltiples passos, l'estimació de mida per a llibres majors grans i el raonament sobre variacions estructurals.
La troballa de la serialització té implicacions pràctiques immediates. Si estic enviant fitxers de Beancount a un LLM, el format que triï afecta la precisió en diversos punts percentuals abans d'haver escrit una sola línia de lògica d'agent. La sintaxi nativa de Beancount és propera a l'extrem 'LN+Sep' de la jerarquia de formats: llegible per als humans, suboptimal per als LLM. Convertir a un intermedi més estructurat (una taula JSON o HTML de transaccions) abans d'alimentar un model pot valer la pena pel cost del preprocessament.
El col·lapse de la complexitat a escala és la troballa més alliçonadora. Un llibre major de Beancount real per a una petita empresa podria tenir milers de transaccions, desenes de comptes i un historial de diversos anys. Els resultats de FinSheet-Bench suggereixen que un cop una taula creix fins a la mida en què realment importa, la precisió dels LLM es degrada en un territori que no és segur per a l'anotació autònoma.
Què llegir a continuació
- TableLLM (arXiv:2311.09206) — model ajustat entrenat en 169 taules de Kaggle (UniPredict); s'informa que supera substancialment el GPT-4 en intents zero (zero-shot) en predicció tabular, la qual cosa suggereix que l'ajust específic del domini encara és l'enfocament correcte per a les tasques de taules específiques de finances.
- TAT-QA (arXiv:2105.07624) — un conjunt de dades específicament per al raonament discret sobre documents financers híbrids (taules + text, com informes de guanys); el model TAT-LLM acompanyant és el precedent més directe per aplicar models especialitzats al raonament de taules financeres.
- ToRR: A Benchmark for Table Reasoning and Robustness (arXiv:2502.19412) — se centra en pertorbacions adversàries com el barrejat de files i el reordenament de columnes; si un agent de Beancount és robust al reordenament, és un senyal que entén l'estructura en lloc de la posició.
