MAC-SQL (COLING 2025) utilise trois agents spécialisés — Selector pour la réduction de schéma, Decomposer pour la décomposition des questions et Refiner pour la correction SQL guidée par l'exécution — pour atteindre une précision d'exécution de 59,59 % sur le benchmark BIRD ; l'ablation montre que le Refiner contribue le plus (+4,63 points), avec des implications directes pour la génération de requêtes de grand livre Beancount.
DIN-SQL (NeurIPS 2023) décompose le text-to-SQL en étapes de liaison de schéma, de classification de la complexité et de génération SQL, faisant passer l'exactitude d'exécution de GPT-4 de 67,4 % à 85,3 % sur Spider sans fine-tuning — et cette même stratégie de décomposition s'applique directement aux interfaces en langage naturel pour le langage de requête BQL de Beancount.
Le benchmark BIRD (NeurIPS 2023) teste les LLM sur 95 bases de données réelles — GPT-4 n'atteint que 54,89 % de précision d'exécution avec des indices de domaine et 34,88 % sans, un écart de 20 points qui définit directement les défis qu'une interface BQL en langage naturel pour Beancount devrait résoudre.