MAC-SQL (COLING 2025) использует трех специализированных агентов — Selector для сокращения схемы, Decomposer для декомпозиции вопросов и Refiner для исправления SQL на основе выполнения — для достижения точности выполнения 59,59% в бенчмарке BIRD; абляционное исследование показывает, что Refiner вносит наибольший вклад (+4,63 балла), что имеет прямое значение для генерации запросов к книгам Beancount.
DIN-SQL (NeurIPS 2023) разделяет процесс преобразования текста в SQL на этапы связывания схемы, классификации сложности и генерации SQL, повышая точность выполнения GPT-4 на Spider с 67,4% до 85,3% без дообучения — и та же стратегия декомпозиции напрямую применима к интерфейсам на естественном языке для языка запросов Beancount (BQL).
Бенчмарк BIRD (NeurIPS 2023) тестирует LLM на 95 реальных базах данных — GPT-4 достигает точности выполнения лишь 54,89% с подсказками по домену и 34,88% без них. Этот 20-процентный разрыв напрямую определяет задачи, которые должен решать интерфейс BQL на естественном языке для Beancount.