MAC-SQL (COLING 2025) utilitza tres agents especialitzats — Selector per a la reducció d'esquema, Decomposer per a la descomposició de preguntes i Refiner per a la correcció de SQL guiada per l'execució — per assolir una precisió d'execució del 59,59% al banc de proves BIRD; l'ablació mostra que el Refiner és el que més contribueix (+4,63 punts), amb implicacions directes per a la generació de consultes de llibres majors de Beancount.
DIN-SQL (NeurIPS 2023) descomposa el text-a-SQL en etapes de vinculació d'esquemes, classificació de complexitat i generació de SQL, elevant el GPT-4 del 67,4% al 85,3% de precisió d'execució a Spider sense ajustos fins — i la mateixa estratègia de descomposició s'aplica directament a les interfícies de llenguatge natural per al llenguatge de consultes BQL de Beancount.
El banc de proves BIRD (NeurIPS 2023) avalua els LLM en 95 bases de dades reals; el GPT-4 només assoleix un 54,89% de precisió d'execució amb pistes de domini i un 34,88% sense elles, una bretxa de 20 punts que defineix directament el que una interfície BQL en llenguatge natural per a Beancount hauria de resoldre.