8 berichten getagd met "Queries"

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Adaptief redeneren voor tabelbegrip met LLM's

TableMaster is een prompting-only pipeline die 78,13% behaalt op WikiTQ met GPT-4o-mini—13 punten hoger dan Chain-of-Table—door de extractie van een 'tabel-van-focus', semantische verbalisering en adaptief schakelen tussen tekstueel en symbolisch redeneren te combineren. Dit is wat de architectuur betekent voor AI-agents voor financiële grootboeken zoals Beancount.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

Chain-of-Table (ICLR 2024) verbetert het tabelgebaseerd redeneren van LLM's door de tabel zelf als tussenstatus te laten evolueren — met een resultaat van 67,31% op WikiTQ tegenover 61,48% voor eerdere baselines, een voorsprong van +10,25 punten op tabellen met meer dan 4.000 tokens en directe toepasbaarheid op Beancount grootboek-queryagents.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

TableLlama finetunet Llama 2 (7B) op 2,6 miljoen voorbeelden van tabeltaken en verslaat GPT-4 op structurele taken zoals kolomtype-annotatie (F1 94 vs. 32), maar komt 33 punten tekort op WikiTQ compositioneel redeneren — een gekalibreerde benchmark voor wat open 7B-modellen vandaag de dag wel en niet kunnen in financiële AI.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: Zwak gesuperviseerde tabel-QA zonder SQL, en wat dit betekent voor Beancount

TAPAS (Google Research, ACL 2020) beantwoordt tabelvragen door cellen te selecteren en scalaire aggregaties toe te passen — zonder SQL te genereren. Dit bericht analyseert de architectuur, de nauwkeurigheidswinst van 12 punten op SQA, en waarom het cel-selectieparadigma geschikt is voor kleine Beancount-ledgerqueries maar tekortschiet op schaal.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: Multi-Agent Collaboratieve Text-to-SQL

MAC-SQL (COLING 2025) gebruikt drie gespecialiseerde agents — Selector voor schemareductie, Decomposer voor vraag-decompositie en Refiner voor uitvoeringsgestuurde SQL-correctie — om een uitvoeringsnauwkeurigheid van 59,59% te behalen op de BIRD-benchmark; ablatie toont aan dat de Refiner het meest bijdraagt (+4,63 punten), met directe gevolgen voor de generatie van zoekopdrachten voor Beancount-grootboeken.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: Gedecomponeerd In-Context Leren voor Text-to-SQL

DIN-SQL (NeurIPS 2023) decomposeert text-to-SQL in fasen voor schema-linking, complexiteitsclassificatie en SQL-generatie, waardoor GPT-4 stijgt van 67,4% naar 85,3% uitvoeringsnauwkeurigheid op Spider zonder fine-tuning — en dezelfde decompositiestrategie is direct toepasbaar op natuurlijke taalinterfaces voor de BQL-querytaal van Beancount.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

BIRD-benchmark: De kloof met echte databases in LLM Text-to-SQL

De BIRD-benchmark (NeurIPS 2023) test LLM's op 95 echte databases — GPT-4 bereikt slechts 54,89% uitvoeringsnauwkeurigheid met domeinhints en 34,88% zonder, een kloof van 20 punten die direct bepaalt wat een BQL-interface in natuurlijke taal voor Beancount zou moeten oplossen.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: Van Lokale naar Globale Query-Gerichte Samenvatting

Microsofts GraphRAG bouwt een door Leiden gepartitioneerde entiteitsgraaf over een tekstcorpus en berekent vooraf community-samenvattingen om globale zingevingsvragen te beantwoorden die standaard vector-RAG niet aankan — maar een bias-audit uit 2025 laat zien dat de winstpercentages van 72–83% instorten na correctie voor positie- en lengte-artefacten in LLM-als-beoordelaar evaluaties.

Alles Over Queries

TableMaster: Adaptief redeneren voor tabelbegrip met LLM's

Chain-of-Table: Evoluerende Tabellen in de LLM-Redeneerketen

TableLlama: Kan een open 7B-model GPT-4 evenaren in tabelbegrip?

TAPAS: Zwak gesuperviseerde tabel-QA zonder SQL, en wat dit betekent voor Beancount

MAC-SQL: Multi-Agent Collaboratieve Text-to-SQL

DIN-SQL: Gedecomponeerd In-Context Leren voor Text-to-SQL

BIRD-benchmark: De kloof met echte databases in LLM Text-to-SQL

GraphRAG: Van Lokale naar Globale Query-Gerichte Samenvatting

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch