メインコンテンツまでスキップ

LLMの信頼度とキャリブレーション:研究が実際に示していることの調査

· 約10分
Mike Thrift
Mike Thrift
Marketing Manager

先週、私はReDActについて取り上げました。これは、安価なモデルの不確実性がキャリブレーションされた閾値を超えた場合に、エージェントの決定を高価なフォールバックモデルにルーティングする手法です。その論文では「不確実性」について多くの抽象的な議論がなされていますが、この分野でその測定とキャリブレーションについて実際に何が解明されているのかを理解するために、一旦立ち止まって考える価値があります。Gengらによる "A Survey of Confidence Estimation and Calibration in Large Language Models" (NAACL 2024) は、その出発点として最適です。これは、何が機能し、何が機能せず、何がまだ測定されていないのかを体系的に分類したものです。

論文の概要

2026-07-09-confidence-estimation-calibration-llms-survey

Geng、Cai、Wang、Koeppl、Nakov、Gurevychらは、選択式QAから自由形式の生成、機械翻訳に至るまでのタスクにおけるLLMの信頼度推定とキャリブレーションに関する新興の文献を調査しています。核心となる問題は、LLMが非常に正確であると同時に、外部からは見分けがつかない形で完全に信頼できない場合があることです。この調査では、解決策の範囲を2つの主要なブランチに整理しています。1つはモデルの内部状態へのアクセスを利用するホワイトボックス手法、もう1つはモデルを不透明なものとして扱うブラックボックス手法です。そして、それぞれの中でさらに信頼度の推定と、事後的なキャリブレーションを区別しています。

この論文はNAACL 2024(6577–6595ページ)で発表されました。2023年11月の投稿から、ダルムシュタット工科大学、MBZUAI、モハメド・ビン・ザイド人工知能大学にまたがるチームによって2024年3月に改訂されました。

主要なアイデア

  • ロジットによるホワイトボックスの信頼度: 最も単純なアプローチは、トークンレベルの確率または長さで正規化した対数尤度を信頼度シグナルとして使用することです。これらの手法は機能しますが、根本的な曖昧さに直面します。低いトークン確率は、事実に対する信頼度が低いことを反映している場合もあれば、単に珍しい言い回しを反映している場合もあります。つまり、モデルは基礎となる事実に確信を持っていても、単語の選択に確信が持てない可能性があるのです。

  • 一貫性ベースのブラックボックスの信頼度 (SelfCheckGPT): Manakulら (EMNLP 2023) は、複数の補完(completion)をサンプリングし、BERTScore、NLI、またはn-gramの重複を使用してそれらの相互の一貫性をスコアリングします。ロジットへのアクセスは不要です。重要な洞察は、LLMがよく知っている事実については繰り返しのサンプルが収束し、ハルシネーション(幻覚)を起こした事実については発散するということです。

  • 意味論的エントロピー: Farquharら (Nature, 2024) は、エントロピーを計算する前に、意味的に同等な回答をクラスタリングします。LLMは「パリ」と「フランスの首都」を異なる言い回しで表現するかもしれません。生のトークンエントロピーはこれらを発散したものとして扱いますが、意味論的エントロピーは扱いません。これは、トークンレベルの一貫性を超えた質的な前進であり、調査の中で文脈化されています。

  • 言語化された信頼度の破綻: 信頼度のパーセンテージを出力するように求められると、モデルは過信(overconfidence)に陥ります。実証研究(Grootら、TrustNLP at ACL 2024)によると、GPT-3、GPT-3.5、Vicunaはいずれも、言語化された信頼度において0.377を超える平均期待キャリブレーション誤差(ECE)を示し、実際の正解率に関係なく予測が90〜100%の範囲に集中します。評価された中で最もキャリブレーションが優れていたGPT-4でさえ、言語化された信頼度を使用して正誤を判別した場合のAUROCは約62.7%にすぎず、偶然をわずかに上回る程度です。

  • タスクによって異なるキャリブレーション手法: 分類タスクでは、空の「[N/A]」プロンプトで推定されたクラス事前分布のバイアスを差し引く文脈的キャリブレーション(contextual calibration)や、位置のデバイアス(PriDE)が既知の体系的バイアスに対処します。生成タスクでは、Sequence Likelihood Calibration (SLiC) がランク付けされた補完に基づいてモデルをファインチューニングします。最も単純な事後修正である温度スケーリング(temperature scaling)は、依然として多くの設定で競争力を維持しています。

  • 統一されたベンチマークの欠如: この調査における最も厳しい構造的指摘は、タスクやドメインを越えて信頼度推定手法を網羅する単一のベンチマークが存在しないことです。これにより、手法を厳密に比較することがほぼ不可能になっています。この分野では、リンゴとオレンジを比較しているような状況です。

何が有効で、何がそうでないか

タクソノミー(分類法)は堅実です。ホワイトボックスとブラックボックスの区別はシステム設計において真に有用であり、ロジットベースの手法に関する扱いはその限界について正直です。著者らは、トークン確率が事実に関する信頼度と語彙的な不確実性を混同していることを直接指摘しています。実務家はこの混同を過小評価しがちです。

この調査で不満が残る点は、主に記述的であることです。手法を直接比較した実験的ベンチマークはほとんどなく、著者らもこれを限界として明示的に認めています。設計空間の明確なマップは得られますが、新しいタスクに対してどの手法を使用すべきかという指針は得られません。

言語化された信頼度の結果(GPT-4自身の自己申告による信頼度のAUROCが約62.7%であること)は、LLMを本番環境に導入するすべての人にとって定石的な知識であるべきです。しかし、そうなっていません。いまだに「1〜10のスケールで、あなたの確信度はどのくらいですか?」と問い、その回答を有意義なものとして扱うプロンプトが使われています。それは無意味です。

また、この調査はRLHFのキャリブレーションに関する問い(人間によるフィードバックを用いた事後学習は、モデルのキャリブレーションを改善するのか、それとも悪化させるのか)についても薄弱です。両方の証拠が存在しますが、調査では概ねこれを回避しています。

なぜこれが金融AIにとって重要なのか

ReDActは、その安全性の根拠を、安価なモデルからのキャリブレーションされた不確実性シグナルに置いています。この調査は、それが実際にはいかに困難であるかを明らかにしています。ロジットベースのシグナルはホワイトボックス設定で利用可能ですが、語彙的および事実的な不確実性を混同します。一貫性ベースの手法はブラックボックス設定で機能しますが、1つの決定につき複数のサンプルを必要とします。これは、トランザクションエントリのバッチを処理する高スループットなBeancount書き戻しエージェントにとってはコストがかかりすぎます。

Bean Labsにとって最も実行可能な知見は、意味論的エントロピーです。これは一貫性をスコアリングする前に意味的に同等な回答をクラスタリングするもので、モデルが同じ借方・貸方の関係を構文的に異なる複数の形式で表現する可能性がある元帳エントリ(ledger entries)において、まさに重要となるものです。Beancountエージェントは、サンプリングされた元帳エントリの補完において、生のトークンレベルの分散ではなく、意味論的クラスタリングを使用して、勘定科目名や金額のハルシネーションを検出する必要があります。

言語化された信頼度のキャリブレーション失敗は、ユーザーに対して「AIの信頼度は?」を表示するあらゆるUIへの直接的な警告です。モデルが生成する数値を信頼してはいけません。代わりに外部のキャリブレーターや一貫性ベースの手法を使用するか、あるいは全く表示しないようにすべきです。

次に読むべきもの

  • Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024 — この調査フレームワークから導き出された最も厳密な手法です。調査の要約ではなく、全文を読む価値があります。
  • Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896) — 定石的な一貫性ベースの手法です。ブラックボックスの信頼度シグナルを導入する前に理解しておくことが不可欠です。
  • Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP at ACL 2024 (arXiv:2405.02917) — 言語化された信頼度がモデルやタスクを越えてどのように破綻するかについての、最も徹底的な実証的監査です。