MAC-SQL (COLING 2025) využíva troch špecializovaných agentov — Selector na redukciu schémy, Decomposer na dekompozíciu otázok a Refiner na opravu SQL riadenú vykonávaním — na dosiahnutie 59,59 % presnosti vykonávania v benchmarku BIRD; ablácia ukazuje, že Refiner prispieva najviac (+4,63 bodu), s priamymi dôsledkami pre generovanie dopytov v účtovných knihách Beancount.
DIN-SQL (NeurIPS 2023) rozkladá proces text-to-SQL na fázy prepájania schém, klasifikácie zložitosti a generovania SQL, čím zvyšuje presnosť vykonávania GPT-4 na benchmarku Spider zo 67,4 % na 85,3 % bez jemného ladenia – a tá istá stratégia dekompozície sa priamo prenáša na rozhrania v prirodzenom jazyku pre dopytovací jazyk BQL nástroja Beancount.
Benchmark BIRD (NeurIPS 2023) testuje LLM na 95 reálnych databázach – GPT-4 dosahuje len 54,89 % presnosť vykonávania s doménovými nápovedami a 34,88 % bez nich. Tento 20-bodový rozdiel priamo definuje výzvy, ktoré by muselo riešiť rozhranie BQL v prirodzenom jazyku pre Beancount.