Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

Chain-of-Table (ICLR 2024) verbetert het tabelgebaseerd redeneren van LLM's door de tabel zelf als tussenstatus te laten evolueren — met een resultaat van 67,31% op WikiTQ tegenover 61,48% voor eerdere baselines, een voorsprong van +10,25 punten op tabellen met meer dan 4.000 tokens en directe toepasbaarheid op Beancount grootboek-queryagents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

TableLlama finetunet Llama 2 (7B) op 2,6 miljoen voorbeelden van tabeltaken en verslaat GPT-4 op structurele taken zoals kolomtype-annotatie (F1 94 vs. 32), maar komt 33 punten tekort op WikiTQ compositioneel redeneren — een gekalibreerde benchmark voor wat open 7B-modellen vandaag de dag wel en niet kunnen in financiële AI.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Zwak gesuperviseerde tabel-QA zonder SQL, en wat dit betekent voor Beancount

TAPAS (Google Research, ACL 2020) beantwoordt tabelvragen door cellen te selecteren en scalaire aggregaties toe te passen — zonder SQL te genereren. Dit bericht analyseert de architectuur, de nauwkeurigheidswinst van 12 punten op SQA, en waarom het cel-selectieparadigma geschikt is voor kleine Beancount-ledgerqueries maar tekortschiet op schaal.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Multi-Agent Collaboratieve Text-to-SQL

MAC-SQL (COLING 2025) gebruikt drie gespecialiseerde agents — Selector voor schemareductie, Decomposer voor vraag-decompositie en Refiner voor uitvoeringsgestuurde SQL-correctie — om een uitvoeringsnauwkeurigheid van 59,59% te behalen op de BIRD-benchmark; ablatie toont aan dat de Refiner het meest bijdraagt (+4,63 punten), met directe gevolgen voor de generatie van zoekopdrachten voor Beancount-grootboeken.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Gedecomponeerd In-Context Leren voor Text-to-SQL

DIN-SQL (NeurIPS 2023) decomposeert text-to-SQL in fasen voor schema-linking, complexiteitsclassificatie en SQL-generatie, waardoor GPT-4 stijgt van 67,4% naar 85,3% uitvoeringsnauwkeurigheid op Spider zonder fine-tuning — en dezelfde decompositiestrategie is direct toepasbaar op natuurlijke taalinterfaces voor de BQL-querytaal van Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

BIRD-benchmark: De kloof met echte databases in LLM Text-to-SQL

De BIRD-benchmark (NeurIPS 2023) test LLM's op 95 echte databases — GPT-4 bereikt slechts 54,89% uitvoeringsnauwkeurigheid met domeinhints en 34,88% zonder, een kloof van 20 punten die direct bepaalt wat een BQL-interface in natuurlijke taal voor Beancount zou moeten oplossen.

AILLMSecurityAutomationBeancountComplianceTrust

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

Onderzoekers van CMU en NC State stellen het gebruik voor van System-Theoretic Process Analysis (STPA) en een voor capaciteiten uitgebreid Model Context Protocol om formele veiligheidsspecificaties af te leiden voor het toolgebruik door LLM-agenten, waarbij Alloy-gebaseerde verificatie de afwezigheid van onveilige stromen aantoont in een casestudy over agendaplanning.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: Van Lokale naar Globale Query-Gerichte Samenvatting

Microsofts GraphRAG bouwt een door Leiden gepartitioneerde entiteitsgraaf over een tekstcorpus en berekent vooraf community-samenvattingen om globale zingevingsvragen te beantwoorden die standaard vector-RAG niet aankan — maar een bias-audit uit 2025 laat zien dat de winstpercentages van 72–83% instorten na correctie voor positie- en lengte-artefacten in LLM-als-beoordelaar evaluaties.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLM's scoren onder de 14% op echte SEC XBRL-audittaken

FinAuditing test 13 LLM's zero-shot op 1.102 echte SEC XBRL-indieningen; de hoogste scores zijn 13,86% op financiële wiskundige verificatie en 12,42% op concept-retrieval—resultaten die direct de grenzen aangeven van wat AI-boekhoudtools betrouwbaar kunnen automatiseren zonder externe hulpmiddelen.

τ-bench: De betrouwbaarheid van AI-agents meten in praktijkgerichte toolgebruik-domeinen

Latest articles

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

TAPAS: Zwak gesuperviseerde tabel-QA zonder SQL, en wat dit betekent voor Beancount

MAC-SQL: Multi-Agent Collaboratieve Text-to-SQL

DIN-SQL: Gedecomponeerd In-Context Leren voor Text-to-SQL

BIRD-benchmark: De kloof met echte databases in LLM Text-to-SQL

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

GraphRAG: Van Lokale naar Globale Query-Gerichte Samenvatting

FinAuditing: LLM's scoren onder de 14% op echte SEC XBRL-audittaken

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch