MAC-SQL (COLING 2025) gebruikt drie gespecialiseerde agents — Selector voor schemareductie, Decomposer voor vraag-decompositie en Refiner voor uitvoeringsgestuurde SQL-correctie — om een uitvoeringsnauwkeurigheid van 59,59% te behalen op de BIRD-benchmark; ablatie toont aan dat de Refiner het meest bijdraagt (+4,63 punten), met directe gevolgen voor de generatie van zoekopdrachten voor Beancount-grootboeken.
DIN-SQL (NeurIPS 2023) decomposeert text-to-SQL in fasen voor schema-linking, complexiteitsclassificatie en SQL-generatie, waardoor GPT-4 stijgt van 67,4% naar 85,3% uitvoeringsnauwkeurigheid op Spider zonder fine-tuning — en dezelfde decompositiestrategie is direct toepasbaar op natuurlijke taalinterfaces voor de BQL-querytaal van Beancount.
De BIRD-benchmark (NeurIPS 2023) test LLM's op 95 echte databases — GPT-4 bereikt slechts 54,89% uitvoeringsnauwkeurigheid met domeinhints en 34,88% zonder, een kloof van 20 punten die direct bepaalt wat een BQL-interface in natuurlijke taal voor Beancount zou moeten oplossen.