MAC-SQL (COLING 2025) използва три специализирани агента — Selector за редуциране на схемата, Decomposer за декомпозиране на въпроси и Refiner за коригиране на SQL чрез обратна връзка от изпълнението — за постигане на 59,59% точност на изпълнение в бенчмарка BIRD; аблационният анализ показва, че Refiner допринася най-много (+4,63 пункта), с преки последици за генерирането на заявки към леджъри на Beancount.
DIN-SQL (NeurIPS 2023) декомпозира текст-към-SQL на етапи за свързване на схеми, класификация на сложността и генериране на SQL, повишавайки точн остта на GPT-4 от 67,4% на 85,3% при Spider без фина настройка — и същата стратегия се прилага директно към интерфейси на естествен език за езика за заявки BQL на Beancount.
Бенчмаркът BIRD (NeurIPS 2023) тества LLM върху 95 реални бази данни — GPT-4 постига само 54,89% точност на изпълнение с насоки за домейна и 34,88% б ез тях. Тази разлика от 20 пункта директно очертава предизвикателствата, които един BQL интерфейс на естествен език за Beancount трябва да реши.