Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

Chain-of-Table (ICLR 2024) improves LLM tabular reasoning by evolving the table itself as the intermediate state — achieving 67.31% on WikiTQ vs. 61.48% for prior baselines, with a +10.25 point advantage on tables exceeding 4,000 tokens and direct applicability to Beancount ledger query agents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

TableLlama realitza un ajustament fi de Llama 2 (7B) en 2,6 milions d'exemples de tasques amb taules i supera GPT-4 en tasques estructurals com l'anotació de tipus de columna (F1 94 vs 32), però es queda 33 punts per sota en el raonament compositiu de WikiTQ — un referent calibrat del que els models oberts de 7B poden i no poden fer en la IA financera actual.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Weakly Supervised Table QA Without SQL, and What It Means for Beancount

TAPAS (Google Research, ACL 2020) answers table questions by selecting cells and applying scalar aggregations — no SQL generated. This post analyzes the architecture, its 12-point SQA accuracy gain, and why the cell-selection paradigm fits small Beancount ledger queries but breaks down at scale.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Text-to-SQL col·laboratiu multiagent

MAC-SQL (COLING 2025) utilitza tres agents especialitzats — Selector per a la reducció d'esquema, Decomposer per a la descomposició de preguntes i Refiner per a la correcció de SQL guiada per l'execució — per assolir una precisió d'execució del 59,59% al banc de proves BIRD; l'ablació mostra que el Refiner és el que més contribueix (+4,63 punts), amb implicacions directes per a la generació de consultes de llibres majors de Beancount.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Aprenentatge en context descompost per a Text-to-SQL

DIN-SQL (NeurIPS 2023) descomposa el text-a-SQL en etapes de vinculació d'esquemes, classificació de complexitat i generació de SQL, elevant el GPT-4 del 67,4% al 85,3% de precisió d'execució a Spider sense ajustos fins — i la mateixa estratègia de descomposició s'aplica directament a les interfícies de llenguatge natural per al llenguatge de consultes BQL de Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

Banc de proves BIRD: La bretxa de les bases de dades reals en el Text-to-SQL dels LLM

El banc de proves BIRD (NeurIPS 2023) avalua els LLM en 95 bases de dades reals; el GPT-4 només assoleix un 54,89% de precisió d'execució amb pistes de domini i un 34,88% sense elles, una bretxa de 20 punts que defineix directament el que una interfície BQL en llenguatge natural per a Beancount hauria de resoldre.

AILLMSecurityAutomationBeancountComplianceTrust

Ús d'eines verificablement segur per a agents de LLM: STPA es troba amb MCP

Investigadors de la CMU i de la NC State proposen l'ús de l'Anàlisi de Processos Teòric del Sistema (STPA) i un Model Context Protocol millorat amb capacitats per derivar especificacions de seguretat formals per a l'ús d'eines d'agents de LLM, amb una verificació basada en Alloy que demostra l'absència de fluxos insegurs en un estudi de cas de programació de calendaris.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: De la resumització local a la global centrada en consultes

El GraphRAG de Microsoft construeix un graf d'entitats particionat per Leiden sobre un corpus de text i precalcula resums de comunitats per respondre preguntes de comprensió global que el RAG vectorial estàndard no pot gestionar — però una auditoria de biaix del 2025 mostra que les seves taxes de victòria del 72–83% col·lapsen després de corregir els artefactes de posició i longitud en l'avaluació de LLM com a jutge.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: els LLM puntuen per sota del 14% en tasques reals d'auditoria SEC XBRL

FinAuditing posa a prova 13 LLM en format zero-shot sobre 1.102 instàncies reals de presentacions SEC XBRL; les puntuacions més altes són del 13,86% en verificació matemàtica financera i del 12,42% en recuperació de conceptes — resultats que limiten directament el que es pot confiar a les eines de comptabilitat d'IA sense eines externes.

τ-bench: Mesurant la fiabilitat dels agents d'IA en dominis d'ús d'eines del món real

Latest articles

Chain-of-Table: Evolving Tables in the LLM Reasoning Chain

TableLlama: Pot un model obert de 7B igualar GPT-4 en la comprensió de taules?

TAPAS: Weakly Supervised Table QA Without SQL, and What It Means for Beancount

MAC-SQL: Text-to-SQL col·laboratiu multiagent

DIN-SQL: Aprenentatge en context descompost per a Text-to-SQL

Banc de proves BIRD: La bretxa de les bases de dades reals en el Text-to-SQL dels LLM

Ús d'eines verificablement segur per a agents de LLM: STPA es troba amb MCP

GraphRAG: De la resumització local a la global centrada en consultes

FinAuditing: els LLM puntuen per sota del 14% en tasques reals d'auditoria SEC XBRL

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal