MAC-SQL (COLING 2025) nutzt drei spezialisierte Agenten — Selector für die Schema-Reduktion, Decomposer für die Fragen-Dekomposition und Refiner für die ausführungsgesteuerte SQL-Korrektur — um eine Ausführungsgenauigkeit von 59,59 % im BIRD-Benchmark zu erreichen. Die Ablationsstudie zeigt, dass der Refiner am meisten beiträgt (+4,63 Punkte), was direkte Auswirkungen auf die Generierung von Abfragen für Beancount-Ledger hat.
DIN-SQL (NeurIPS 2023) zerlegt Text-zu-SQL in Phasen der Schema-Verknüpfung, Komplexitätsklassifizierung und SQL-Generierung. Dies hebt GPT-4 ohne Fine-Tuning von 67,4 % auf 85,3 % Ausführungsgenauigkeit bei Spider – und dieselbe Strategie lässt sich direkt auf natürliche Schnittstellen für die BQL-Abfragesprache von Beancount übertragen.
Der BIRD-Benchmark (NeurIPS 2023) testet LLMs auf 95 realen Datenbanken – GPT-4 erreicht mit Domänenhinweisen nur 54,89 % Ausführungsgenauigkeit und ohne nur 34,88 %. Diese Kluft von 20 Prozentpunkten prägt direkt die Anforderungen an eine BQL-Schnittstelle in natürlicher Sprache für Beancount.