O MAC-SQL (COLING 2025) utiliza três agentes especializados — Seletor para redução de esquema, Decompositor para decomposição de perguntas e Refinador para correção de SQL guiada por execução — para alcançar 59,59% de precisão de execução no benchmark BIRD; a ablação mostra que o Refinador é o que mais contribui (+4,63 pontos), com implicações diretas para a geração de consultas em livros-razão do Beancount.
O DIN-SQL (NeurIPS 2023) decompõe o text-to-SQL em etapas de vinculação de esquema, classificação de complexidade e geração de SQL, elevando o GPT-4 de 67,4% para 85,3% de precisão de execução no Spider sem ajuste fino — e a mesma estratégia de decomposição mapeia-se diretamente para interfaces de linguagem natural para a linguagem de consulta BQL do Beancount.
O benchmark BIRD (NeurIPS 2023) testa LLMs em 95 bancos de dados reais — o GPT-4 atinge apenas 54,89% de acurácia de execução com dicas de domínio e 34,88% sem elas, uma lacuna de 20 pontos que molda diretamente o que uma interface BQL de linguagem natural para o Beancount precisaria resolver.