LLMエージェントにおける不確実性を考慮したディフェラル:小規模モデルから大規模モデルへいつエスカレーションすべきか
自律型エージェントに対し、安価であることと信頼できることの両立を求める圧力は、相反する方向へと働きます。最先端のフロンティアモデルは信頼性が高いものの高価であり、小規模モデルは安価ですがエラーが発生しやすいのが現状です。PiatrashynらによるReDActの論文 (arXiv:2604.07036) は、その中間的な道、つまり「通常は小規模モデルを実行し、そのモデルが不確実な場合にのみ大規模モデルに委譲(ディフェラル)する」という手法を提案しています。私がこの論文を読んでいるのは、本番環境のBeancount書き戻しエージェント(write-back agent)が直面する緊張感も同様だからです。日常的な分類は安価に処理し、確証が持てないケースは台帳を汚す前にエスカレーションさせたいというニーズがあるのです。
論文の内容
ReDAct (Reason-Defer-Act) は、ReActプロンプティングのパラダイムに基づいて構築された、2モデル構成のエージェントアーキテクチャです。Qwen3-80B、Llama3.3-70B、あるいはLlama4-Maverickといった安価な小規模モデルが、デフォルトですべてのステップを処理します。各ステップで、モデルはまず推論トレース(reasoning trace)を生成し、次にアクションを生成します。システムはアクション生成ステップのみのトークンレベルの不確実性を測定し、キャリブレーション(較正)済みの閾値と比較します。不確実性が閾値を超えた場合、そのステップは高価な大規模モデル(GPT-5.2、Qwen3-235B、あるいはQwen3-480B)によって再実行されます。そうでなければ、小規模モデルのアクションが実行されます。
不確実性の測定には情報理論的な手法が用いられ、トークンレベルの対数確率(log-probabilities)のみを必要とします。具体的には、シーケンス確率(負の対数確率の合計)、パープレキシティ(長さで正規化されたもの)、および平均トークンエントロピー(全トークン位置の平均エントロピー)です。閾値は、エピソードあたりの大規模モデルの呼び出し回数が目標値Kになるような値を選択することで、小規模モデルのロールアウト用ホールドアウトセットからキャリブレーションされます。
主要なアイデア
- 推論ステップではなく、アクションステップで不確実性を測定する。 2,411個のALFWorldステップを用いた補助的な実験では、推論レベルの不確実性は正しいステップと誤ったステップを判別する能力が低いことが分かりました。一方で、アクションレベルのパープレキシティは、正しさの予測指標として測定可能なほど高いROC-AUCとPRRを示しました。
- Qwen3-80B + GPT-5.2によるPPLディフェラルは、ALFWorldで80.8% ± 1.1%を達成。 これはGPT-5.2単体(78.3% ± 1.9%)を上回りつつ、コストは45.21ドルに対して16.25ドルと、約64%の削減を実現しています。
- 実際には約15%のステップが委譲される。 キャリブレーションの目標を約10%に設定していてもこの数字になるのは、失敗した(より短い)軌跡が委譲予算に対して不釣り合いに寄与するためです。
- 同じ割合でのランダムな委譲のスコアは77.0%。 小規模モデル単体(68.3%)よりは良好ですが、不確実性(UQ)に基づいた委譲よりは劣ります。単に大規模モデルを多く呼び出すだけでなく、不確実性のシグナルが真に重要であることを示しています。
- MiniGridでは伸び代が少ない。 PPLディフェラルを用いたQwen3-80B + GPT-5.2は95.0%に達しましたが、GPT-5.2単体は99.0%でした。タスクの語彙が少ない場合、小規模モデルが構造的に不十分であれば、委譲アプローチには限界が生じます。
- 委譲の分布はタスクに依存する。 ALFWorldでは後半のステップ(プロンプト履歴が長くなるほど)で委譲が増える一方、MiniGridではエージェントの初期位置に関連した二峰性のパターンが見られました。これは、固定された閾値のキャリブレーションは、異なるタスク間よりも同一タスク内での汎用性が高いことを意味します。
妥当な点とそうでない点
核となる実証結果は信頼に足るものです。アクション文字列に対するパープレキシティは、特定のステップが失敗しそうかどうかの合理的な代替指標となります。ReActにおける推論とアクションの分解は、不確実性シグナルを付与するための明確なポイントを提供しており、補助的な正誤予測実験はこの設計の選択に真のメカニズム的根拠を与えています。
納得しがたい点としては、ALFWorldでの「大規模モデル単体を超える」という結果です。80.8% ± 1.1% と 78.3% ± 1.9% は、標準偏差の範囲内で重なっています。著者はこれを、小規模モデルが日常的なステップを処理し、大規模モデルが時折見せるリスクテイクを避けるといった「補完的な強み」によるものとしていますが、この主張を裏付けるステップごとのアブレーション(除去試験)は行われていません。単なるノイズである可能性もあります。
ベンチマークの選択も限定的です。ALFWorldとMiniGridはテキストベースの家庭内シミュレーションやグリッドワールドのナビゲーションであり、ツール呼び出しやコード実行、複数文書の検索など を伴わない狭い環境です。不確実性でキャリブレーションされた委譲が、より豊かな設定(Beancountに関連するような設定)で維持されるかどうかは不明です。また、大規模モデルとしてGPT-5.2を選択しているため、コストの数字を再現するのは困難です。
キャリブレーション手順には、対処されていない循環参照があります。閾値は、キャリブレーションに使用されたのと同じ分布上で選択されており、ホールドアウトされた検証セットがありません。著者はキャリブレーション(小規模モデルのロールアウト)と評価(ハイブリッドなロールアウト)の間の分布のずれを認めていますが、閾値の堅牢性については今後の課題としています。
なぜこれが金融AIにとって重要なのか
Beancountの書き戻しエージェントは、すべての取引において、これと全く同じ「委譲」の問いに直面します。日常的な食料品の購入には分類が必要です。一方で、一部が一致した摘要(memo)を持つ、珍しい多段階の多通貨スワップには人間が必要です。現在の慣行は、完全な自動化(リスクが高い)か、完全な人間によるレビュー(コストが高い)のどちらかです。ReDActの枠組みは、扱いやすい中間領域を示唆しています。安価なモデルを実行し、候補となるジャーナルエントリのパープレキシティがキャリブレーションされた閾値を超えた場合にエ スカレーションするのです。
金融の文脈では、論文で扱われていない2つの考慮事項が加わります。第一に、ここでの「委譲」は、より大きなLLMを呼び出すことではなく、「一時停止してユーザーに尋ねる」ことを意味すべき場合が多いということです。台帳の正確性の基準は、ベンチマークのスコアではなく、ユーザーの意図だからです。第二に、確定されたBeancountエントリの不可逆性は、ALFWorldでオブジェクトを置き間違えることよりも重いものです。キャリブレーションの目標Kは、委譲する前に小規模モデルの適合率(precision)を低く見積もるよう、保守的に調整されるべきでしょう。
これらの注意点はありますが、64%のコスト削減というシグナルは真剣に受け止める価値があります。もしBeancountエージェントが1ヶ月分の取引を処理し、分類の判断のうち15%だけが高価なモデルを必要とするのであれば、有能な書き戻しエージェントを運用する経済性は格段に向上します。
次に読むべきもの
- KnowNo (Ren et al., 2023, CoRL): "Robots that ask for help: uncertainty alignment for large language model planners" — 共形予測(conformal prediction)を使用して、いつ助けを求めるべきかの「カバレッジ」保証をキャリブレーションします。ReDActはこれと比較していませんが、本番環境の手法を選択する前に、共形保証と閾値キャリブレーションのトレードオフを理解することは重要です。[arXiv:2307.01928]
- A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. updated, NAACL 2024) — 言語化された自信、サンプリングベース、および事後キャリブレーション手法の体系的なタクソノミーです。パープレキシティが適切な不確実性の代替指標なのか、あるいはキャリブレーションされたロジットスケーリングの方が優れているのかを判断するための理論的背景となります。[arXiv:2311.08298]
- UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — 「ツールの呼び出し」の判断(ツールを呼び出すか、モデルの知識に頼るか)に構造的に類似した不確実性の閾値を適用し、ツール呼び出しを50%以上削減しています。エージェントの不確実性におけるツール利用の軸において、ReDActを直接補完するものです。[https://uala-agent.github.io/]
