Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.
TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.
TAPAS (Google Research, ACL 2020) answers table questions by selecting cells and applying scalar aggregations — no SQL generated. This post analyzes the architecture, its 12-point SQA accuracy gain, and why the cell-selection paradigm fits small Beancount ledger queries but breaks down at scale.
MAC-SQL (COLING 2025) utilitza tres agents especialitzats — Selector per a la reducció d'esquema, Decomposer per a la descomposició de preguntes i Refiner per a la correcció de SQL guiada per l'execució — per assolir una precisió d'execució del 59,59% al banc de proves BIRD; l'ablació mostra que el Refiner és el que més contribueix (+4,63 punts), amb implicacions directes per a la generació de consultes de llibres majors de Beancount.
DIN-SQL (NeurIPS 2023) descomposa el text-a-SQL en etapes de vinculació d'esquemes, classificació de complexitat i generació de SQL, elevant el GPT-4 del 67,4% al 85,3% de precisió d'execució a Spider sense ajustos fins — i la mateixa estratègia de descomposició s'aplica directament a les interfícies de llenguatge natural per al llenguatge de consultes BQL de Beancount.
El banc de proves BIRD (NeurIPS 2023) avalua els LLM en 95 bases de dades reals; el GPT-4 només assoleix un 54,89% de precisió d'execució amb pistes de domini i un 34,88% sense elles, una bretxa de 20 punts que defineix directament el que una interfície BQL en llenguatge natural per a Beancount hauria de resoldre.
Investigadors de la CMU i de la NC State proposen l'ús de l'Anàlisi de Processos Teòric del Sistema (STPA) i un Model Context Protocol millorat amb capacitats per derivar especificacions de seguretat formals per a l'ús d'eines d'agents de LLM, amb una verificació basada en Alloy que demostra l'absència de fluxos insegurs en un estudi de cas de programació de calendaris.
El GraphRAG de Microsoft construeix un graf d'entitats particionat per Leiden sobre un corpus de text i precalcula resums de comunitats per respondre preguntes de comprensió global que el RAG vectorial estàndard no pot gestionar — però una auditoria de biaix del 2025 mostra que les seves taxes de victòria del 72–83% col·lapsen després de corregir els artefactes de posició i longitud en l'avaluació de LLM com a jutge.
FinAuditing posa a prova 13 LLM en format zero-shot sobre 1.102 instàncies reals de presentacions SEC XBRL; les puntuacions més altes són del 13,86% en verificació matemàtica financera i del 12,42% en recuperació de conceptes — resultats que limiten directament el que es pot confiar a les eines de comptabilitat d'IA sense eines externes.