LLMの信頼度とキャリブレーション:研究が実際に示していることの調査
LLMの信頼度推定とキャリブレーション手法(ホワイトボックスのロジットアプローチ、一貫性ベースのSelfCheckGPT、意味論的エントロピー)に関する体系的な調査により、GPT-4による言語化された信頼度スコアはAUROC約62.7%にとどまり、偶然をわずかに上回る程度であることが明らか になりました。これは、金融や会計において不確実性を認識するエージェントを導入する上で直接的な影響を及ぼします。
LLMの信頼度推定とキャリブレーション手法(ホワイトボックスのロジットアプローチ、一貫性ベースのSelfCheckGPT、意味論的エントロピー)に関する体系的な調査により、GPT-4による言語化された信頼度スコアはAUROC約62.7%にとどまり、偶然をわずかに上回る程度であることが明らか になりました。これは、金融や会計において不確実性を認識するエージェントを導入する上で直接的な影響を及ぼします。
ReDActは、デフォルトで小規模モデルを実行し、トークンレベルのパープレキシティが不確実性を示した場合にのみ高価なモデルへとエスカレーションします。これにより、GPT-5.2単体と比較して、精度を維持または向上させつつ64%のコスト削減を実現します。これはBeancountの取引分類エージェントに直接応用可能なパターンです。
CMUとノースカロライナ州立大学の研究者が、System-Theoretic Process Analysis(STPA)と機能強化されたModel Context Protocolを用いて、LLMエージェントのツール利用に関する形式的な安全仕様を導出することを提案。Alloyベースの検証により、カレンダースケジューリングのケーススタディにおいて安全でないフローが存在しないことを実証しています。
AGrail(ACL 2025)は、テスト時適応(TTA)を通じて推論時に安全性チェックを適応させる2つのLLMによる協調型ガードレールを導入し、Safe-OSにおいてプロンプトインジェクション攻撃の成功率0%と正当なアクションの95.6%の保持を達成しました。これに対し、GuardAgentやLLaMA-Guardは正当なアクションを最大49.2%ブロックしてしまいます。
ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。
GuardAgent(ICML 2025)は、ターゲットエージェントと環境の間に独立したLLMエージェントを配置し、Pythonコードを生成・実行することで提案されたすべてのアクションを検証します。これにより、プロンプトに埋め込まれた安全ルールでは81%の精度と29〜71%のタスク失敗率であったのに対し、98.7%のポリシー遵守精度を達成しながら100%のタスク完了率を維持します。
Huang氏ら(ICLR 2024)は、外部フィードバックなしで自身の推論をレビューするよう求められたLLMの精度が一貫して低下すること(GSM8KでGPT-4が95.5%から91.5%に低下)を示しました。これが信頼性の高いBeancount仕訳エージェントの設計にどのような影響を与えるかを解説します。
PHANTOM(NeurIPS 2025)は、最大30,000トークンのコンテキスト長にわたる実際のSEC提出書類を用いて、LLMのハルシネーション検出を測定する初のベンチマークです。Qwen3-30B-A3B-ThinkingがF1=0.882でリードしており、7Bモデルのスコアはランダムな推測に近く、これは自律型会計エージェントに直接的な影響を及ぼします。