FinToolBenchは、760のライブ金融APIツールと295の実行可能なクエリを組み 合わせ、実世界の金融タスクにおけるLLMエージェントのベンチマークを行います。GPT-4oは保守的な呼び出し率(TIR 22.7%)ながら高い回答品質(CSS 0.670)を示す一方、Qwen3-8Bは積極的(TIR 87.1%)ですが、全モデルで意図の不一致(intent mismatch)が50%を超えることが判明しました。
CMUとノースカロライナ州立大学の研究者が、System-Theoretic Process Analysis(STPA)と機能強化されたModel Context Protocolを用いて、LLMエージェントのツール利用に 関する形式的な安全仕様を導出することを提案。Alloyベースの検証により、カレンダースケジューリングのケーススタディにおいて安全でないフローが存在しないことを実証しています。
FinAuditingは、1,102件の実在するSEC XBRL提出事例を用いて13のLLMをゼロショットでテストしました。最高スコアは財務計算の検証で13.86%、コンセプト検索で12.42%にとどまりました。この結果は、外部ツールなしでAI会計ツールに自動化を任せられる範囲を直接的に制限するものです。
AGrail(ACL 2025)は、テスト時適応(TTA)を通じて推論時に安全性チェックを適応させる2つのLLMによる協調型ガードレールを導入し、Safe-OSにおいてプロンプトインジェクション攻撃の成功率0%と正当なアクションの95.6%の保持を達成しました。これに対し、GuardAgentやLLaMA-Guardは正当なアクションを最大49.2%ブロックしてしまいます。
ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。
AuditCopilotは、オープンソースのLLM(Mistral-8B、Gemma、Llama-3.1)を企業の仕訳不正検知に適用し、誤検知を942件から12件に削減しました。しかし、アブレーション研究により、LLMは独立した異常検知器としてではなく、主にIsolation Forestスコアの上層にある統合レイヤーとして機能していることが明らかになりました。
Anthropicの憲法AI(Constitutional AI)論文(Bai et al., 2022)では、人間の害ラベルではなく、AIが生成したフィードバックを使用してLLMにルールを遵守させるよう訓練しています。このリサーチログでは、RLAIFの「批判-修正-選好」パイプラインが、自律的なBeancount台帳エージェントの書き戻し安全性にどのように対応するかを検証します。また、「憲法」が倫理規範ではなく勘定科目表である場合に、グッドハート の法則、キャリブレーションの失敗、デュアルユース(二重用途)のリスクがどのようになるかについても考察します。