MAC-SQL (COLING 2025) використовує трьох спеціалізованих агентів — Selector для скорочення схеми, Decomposer для декомпозиції питань та Refiner для виправлення SQL на основі результатів виконання — щоб досягти точності виконання 59,59% у бенчмарку BIRD; абляційне дослідження показує, що Refiner робить найбільший внесок (+4,63 пункту), що має пряме значення для генерації запитів до журналів Beancount.
DIN-SQL (NeurIPS 2023) декомпозує text-to-SQL на етапи прив'язки до схеми, класифікації складно сті та генерації SQL, що підвищує точність виконання GPT-4 на Spider з 67,4% до 85,3% без донавчання — і ця ж стратегія декомпозиції безпосередньо переноситься на інтерфейси природною мовою для мови запитів BQL від Beancount.
Бенчмарк BIRD (NeurIPS 2023) тестує LLM на 95 реальних базах даних — GPT-4 досягає лише 54,89% точності виконання з підказками щодо домену та 34,88% без них. Цей розрив у 20 пунктів безпосередньо визначає завдання, які має вирішити інтерфейс BQL природною мовою для Beancount.