τ-bench: 実世界のツール使用ドメインにおけるAIエージェントの信頼性の測定
τ-benchは、Claude 3.5 SonnetのようなトップクラスのLLMでも、小売カスタマーサービス業務においてpass@1の0.692からpass@4の0.462へと低下することを示しています。これは一貫性の急落(Consistency Cliff)を意味し、Beancount元帳を操作する書き戻しエージェントにとって直接的な影響を与えます。
τ-benchは、Claude 3.5 SonnetのようなトップクラスのLLMでも、小売カスタマーサービス業務においてpass@1の0.692からpass@4の0.462へと低下することを示しています。これは一貫性の急落(Consistency Cliff)を意味し、Beancount元帳を操作する書き戻しエージェントにとって直接的な影響を与えます。
Chain-of-Table (ICLR 2024) は、テーブル自体を中間状態として進化させることで LLM のテーブル推論を向上させます。WikiTQ で 67.31%(従来ベースラインの 61.48% に対し)を達成し、4,000 トークンを超えるテーブルでは +10.25 ポイントのアドバンテージを実現しており、Beancount 元帳クエリエージェントへの直接的な応用が可能です。
TableLlamaは、260万のテーブルタスク例を用いてLlama 2 (7B)をファインチューニングしたモデルです。列型アノテーション(F1 94対32)のような構造的タスクではGPT-4を上回る一方、WikiTQの構成的推論では33ポイント及ばないという結果が出ています。これは、現在の金融AIにおいて7Bのオープンモデルができること、できないことを測るための指標となります。
TAPAS(Google Research、ACL 2020)は、SQLを生成せずに、セルを選択してスカラー集計を適用することでテーブルに関する質問に答えます。本記事では、そのアーキテクチャ、SQAにおける12ポイントの精度向上、そしてなぜセル選択パラダイムが小規模なBeancount元帳クエリには適しているものの、大規模な場合には破綻するのかを分析します。
MAC-SQL (COLING 2025) は、スキーマ削減用の Selector、質問分解用の Decomposer、実行ガイド付き SQL 修正用の Refiner という 3 つの特化型エージェントを使用し、BIRD ベンチマークで 59.59% の実行精度を達成しました。アブレーション解析により、Refiner の貢献が最も大きいこと (+4.63 ポイント) が示されており、Beancount 元帳クエリ生成に直接的な示唆を与えています。
DIN-SQL(NeurIPS 2023)は、text-to-SQLをスキーマリンキング、複雑度分類、SQL生成の段階に分解することで、ファインチューニングなしでSpiderにおけるGPT-4の実行精度を67.4%から85.3%に向上させました。この分解戦略は、BeancountのBQLクエリ言語のための自然言語インターフェースにも直接応用可能です。
BIRDベンチマーク(NeurIPS 2023)は、95の実データベースを用いてLLMをテストしています。GPT-4の実行精度はドメインのヒントがある場合でわずか54.89%、ない場合は34.88%にとどまり、この20ポイントの差は、Beancount用の自然言語BQLインターフェースが解決すべき課題を直接的に示唆しています。
CMUとノースカロライナ州立大学の研究者が、System-Theoretic Process Analysis(STPA)と機能強化されたModel Context Protocolを用いて、LLMエージェントのツール利用に関する形式的な安全仕様を導出することを提案。Alloyベースの検証により、カレンダースケジューリングのケーススタディにおいて安全でないフローが存在しないことを実証しています。
マイクロソフトのGraphRAGは、テキストコーパス上にLeidenアルゴリズムで分割されたエンティティグラフを構築し、コミュニティの要約を事前計算することで、標準的なベクトルRAGでは対応できないグローバルな意味把握の質問に回答します。しかし、2025年のバイアス監査により、LLMを評価者(LLM-as-judge)とした際の回答位置や長さによるアーティファクトを修正すると、72〜83%という勝率が崩壊することが示されました。
FinAuditingは、1,102件の実在するSEC XBRL提出事例を用いて13のLLMをゼロショットでテストしました。最高スコアは財務計算の検証で13.86%、コンセプト検索で12.42%にとどまりました。この結果は、外部ツールなしでAI会計ツールに自動化を任せられる範囲を直接的に制限するものです。