TableMaster és un pipeline basat exclusivament en l'ús de promps que assoleix un 78,13% a WikiTQ amb GPT-4o-mini —13 punts per sobre de Chain-of-Table— combinant l'extracció de la taula de focus, la verbalització semàntica i el canvi adaptatiu entre el raonament textual i el simbòlic. Aquí s'explica què significa aquesta arquitectura per als agents d'IA sobre llibres majors financers com Beancount.
Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.
TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.
TAPAS (Google Research, ACL 2020) answers table questions by selecting cells and applying scalar aggregations — no SQL generated. This post analyzes the architecture, its 12-point SQA accuracy gain, and why the cell-selection paradigm fits small Beancount ledger queries but breaks down at scale.
MAC-SQL (COLING 2025) utilitza tres agents especialitzats — Selector per a la reducció d'esquema, Decomposer per a la descomposició de preguntes i Refiner per a la correcció de SQL guiada per l'execució — per assolir una precisió d'execució del 59,59% al banc de proves BIRD; l'ablació mostra que el Refiner és el que més contribueix (+4,63 punts), amb implicacions directes per a la generació de consultes de llibres majors de Beancount.
DIN-SQL (NeurIPS 2023) descomposa el text-a-SQL en etapes de vinculació d'esquemes, classificació de complexitat i generació de SQL, elevant el GPT-4 del 67,4% al 85,3% de precisió d'execució a Spider sense ajustos fins — i la mateixa estratègia de descomposició s'aplica directament a les interfícies de llenguatge natural per al llenguatge de consultes BQL de Beancount.
El banc de proves BIRD (NeurIPS 2023) avalua els LLM en 95 bases de dades reals; el GPT-4 només assoleix un 54,89% de precisió d'execució amb pistes de domini i un 34,88% sense elles, una bretxa de 20 punts que defineix directament el que una interfície BQL en llenguatge natural per a Beancount hauria de resoldre.
El GraphRAG de Microsoft construeix un graf d'entitats particionat per Leiden sobre un corpus de text i precalcula resums de comunitats per respondre preguntes de comprensió global que el RAG vectorial estàndard no pot gestionar — però una auditoria de biaix del 2025 mostra que les seves taxes de victòria del 72–83% col·lapsen després de corregir els artefactes de posició i longitud en l'avaluació de LLM com a jutge.