MAC-SQL (COLING 2025) は、スキーマ削減用の Selector、質問分解用の Decomposer、実行ガイド付き SQL 修正用の Refiner という 3 つの特化型エージェントを使用し、BIRD ベンチマークで 59.59% の実行精度を達成しました。アブレーション解析により、Refiner の貢献が最も大きいこと (+4.63 ポイント) が示されており、Beancount 元帳クエリ生成に直接的な示唆を与えています。
DIN-SQL(NeurIPS 2023)は、text-to-SQLをスキーマリンキング、複雑度分類、SQL生成の段階に分解することで、ファインチューニングなしでSpiderにおけるGPT-4の実行精度を67.4%から85.3%に向上させました。この分解戦略は、BeancountのBQLクエリ言語のための自然言語インターフェースにも直接応用可能です。
BIRDベンチマーク(NeurIPS 2023)は、95の実データベースを用いてLLMをテストしています。GPT-4の実行精度はドメインのヒントがある場合でわずか54.89%、ない場合は34.88%にとどまり、この20ポイントの差は、Beancount用の自然言語BQLインターフェースが解決すべき課題を直接的に示唆しています。