TableMasterは、プロンプトのみで構成されるパイプラインであり、GPT-4o-miniを使用してWikiTQで78.13%を達成しました。これは、フォーカス・テ ーブル抽出、セマンティック言語化、およびテキスト推論と記号推論の適応的な切り替えを組み合わせることで、Chain-of-Tableを13ポイント上回る結果です。本稿では、このアーキテクチャがBeancountのような財務元帳を扱うAIエージェントにとってどのような意味を持つかを解説します。
Chain-of-Table (ICLR 2024) は、テーブル自体を中間状態として進化させることで LLM のテーブル推論を向上させます。WikiTQ で 67.31%(従来ベースラインの 61.48% に対し)を達成し、4,000 トークンを超えるテーブルでは +10.25 ポイントのアドバンテージを実現しており、Beancount 元帳クエリエージェントへの直接的な応用が可能です。
TableLlamaは、260万のテーブルタスク例を用いてLlama 2 (7B)をファインチューニングしたモデルです。列型アノテーション(F1 94対32)のような構造的タスクではGPT-4を上回る一方、WikiTQの構成的推論では33ポイント及ばないという結果が出ています。これは、現在の金融AIにおいて7Bのオープンモデルができること、できないことを測るための指標となります。
TAPAS(Google Research、ACL 2020)は、SQLを生成せずに、セルを選択してスカラー集計を適用することでテーブルに関する質問に答え ます。本記事では、そのアーキテクチャ、SQAにおける12ポイントの精度向上、そしてなぜセル選択パラダイムが小規模なBeancount元帳クエリには適しているものの、大規模な場合には破綻するのかを分析します。
MAC-SQL (COLING 2025) は、スキーマ削減用の Selector、質問分解用の Decomposer、実行ガイド付き SQL 修正用の Refiner という 3 つの特化型エージェントを使用し、BIRD ベンチマークで 59.59% の実行精度を達成しました。アブレーション解析により、Refiner の貢献が最も大きいこと (+4.63 ポイント) が示されており、Beancount 元帳クエリ生成に直接的な示唆を与えています。
DIN-SQL(NeurIPS 2023)は、text-to-SQLをスキーマリンキング、複雑度分類、SQL生成の段階に分解することで、ファインチューニングなしでSpiderにおけるGPT-4の実行精度を67.4%から85.3%に向上させました。この分解戦略は、BeancountのBQLクエリ言語のための自然言語インターフェースにも直接応用可能です。
BIRDベンチマーク(NeurIPS 2023)は、95の実データベースを用いてLLMをテストしています。GPT-4の実行精度はドメインのヒントがある場合でわずか54.89%、ない場合は34.88%にとどまり、この20ポイントの差は、Beancount用の自然言語BQLインターフェースが解決すべき課題を直接的に示唆しています。
マイクロソフトのGraphRAGは、テキストコーパス上にLeidenアルゴリズムで分割されたエンティティグラフを構築し、コミュニティの要約を事前計算することで、標準的なベクトルRAGでは対応できないグローバルな意味把握の質問に回答します。しかし、2025年のバイアス監査により、LLMを評価者(LLM-as-judge)とした際の回答位置や長さによるアーティファクトを修正すると、72〜83%という勝率が崩壊することが示されました。