メインコンテンツまでスキップ

PHANTOM (NeurIPS 2025): 金融文書におけるLLMのハルシネーション検出の測定

· 約8分
Mike Thrift
Mike Thrift
Marketing Manager

PHANTOM(NeurIPS 2025)は、Beancountの元帳をLLMに任せる前に私が最も知りたかった疑問を投げかけています。それは、「モデルは金融文書について嘘をついているときに、自らそれに気づくことができるのか?」という問いです。結果は心強いものではなく、手法の選択は慎重に検討する価値があります。

論文

2026-04-19-phantom-hallucination-detection-financial-long-context

Lanlan Ji、Dominic Seyler、Gunkirat Kaur、Manjunath Hegde、Koustuv Dasgupta、Bing Xiang(多くはIBM Research所属)は、一般的なハルシネーション・ベンチマークが残した空白を埋めるためにPHANTOMを構築しました。標準的なハルシネーション・ベンチマークは、整形されたクエリを用いた短くクリーンなコンテキストをテストします。金融文書はその逆です。単一の10-K提出書類は日常的に100,000トークンを超え、数値はセント単位で正確であり、言語は非自明な意味を持つドメイン固有の用語(EBITDA、繰延収益、のれんの減損など)で埋め尽くされています。核となる貢献は、実際のSEC提出書類(10-K年次報告書、497K投資信託提出書類、DEF 14Aプロキシ声明書)から構築された、クエリ・回答・文書の三つ組データセットです。各回答は正解か、意図的に捏造されたハルシネーションであり、人間のアノテーターによって検証されています。このベンチマークは、約500トークンから30,000トークンまでのコンテキスト長をテストし、関連情報がコンテキストの最初、中間、または最後に現れる位置を系統的に変化させて、シードセットを拡張しています。

主要なアイデア

  • タスクはハルシネーションの生成ではなく、ハルシネーションの検出です。文書のチャンクと回答が与えられたとき、その回答が根拠に基づいているか、それとも捏造されているかを分類します。これは根拠のある回答を生成するよりも単純なタスクですが、それでもモデルは非常に苦戦しています。
  • コンテキスト長が大きく影響します。シードセットは約500トークンのチャンクを使用します。コンテキストが10K、20K、30Kトークンと増えるにつれて、すべてのモデルでパフォーマンスが大幅に低下しました。これは、関連情報が長いコンテキストの中間に埋もれるとLLMの性能が低下するという「Lost in the Middle(中だるみ)」の知見(arXiv:2307.03172)と一致しています。
  • Llama-3.3-70B-Instructはシードデータセットで0.916という最高のF1スコアを達成しました。しかし、著者らはこのモデルがシードデータセットの生成にも使用されたことを指摘しており、これは数値を水増しさせる循環性の問題です。
  • Qwen3-30B-A3B-ThinkingはF1 = 0.882を達成し、テストされたすべてのクローズドソースモデルを上回りました。思考プロセスを持たない姉妹モデルのInstructは0.848であり、推論時計算(思考の連鎖/Chain-of-Thought)がここで真の価値をもたらしていることを示唆しています。
  • 小規模モデル(Qwen-2.5-7B)のスコアは、ベンチマークにおいてランダムな推測をわずかに上回る程度でした。長い金融文書におけるハルシネーション検出には、実質的なモデル容量が必要であるようです。
  • PHANTOMのデータでオープンソースモデルをファインチューニングすると、検出率が大幅に向上します。論文は、これを実務家にとって最も有望な方向性として特定しています。

妥当な点とそうでない点

構築手法は慎重です。シードセットに対する人間によるアノテーションに続き、コンテキスト長や配置場所を系統的に拡張することで、PHANTOMは多くの金融NLPデータセットに欠けている構造を備えています。特に配置のバリエーションは有用です。モデルの失敗がコンテキストの総長によるものなのか、それとも多くのLLMアーキテクチャで記録されている特定のU字型の注意パターン(最初と最後は強いが、中間は弱い)によるものなのかを測定できるからです。

Llama-3.3-70Bの循環性の問題は深刻であり、それを指摘した著者らは称賛に値します。しかし、これはベンチマークのトップの結果が解釈不能であることを意味します。実務家にとってより有用な数値は、おそらくそのような汚染が存在しないQwen3やPhi-4の結果でしょう。

論文に提供してほしかったのは、コンテキスト長が500から30,000トークンに増えるにつれての実際の劣化曲線です。論文は劣化が起こること、そして配置が重要であることを立証していますが、入手可能な資料から具体的なパーセンテージの低下を抽出することはできませんでした。その粒度は、本番システムでの検索チャンクサイズを決定するために重要です。また、このベンチマークは、提示された回答の中にハルシネーションがあるかどうかをモデルが検出できるかどうかのみをテストしていることにも注意が必要です。モデルがゼロから回答を生成するように求められたときにハルシネーションを起こすかどうかをテストしているわけではありません。これらは関連していますが異なる失敗モードであり、検出スコアが高いシステムでも、生成においてひどく失敗する可能性があります。

最後に、このデータセットは3種類のSEC提出書類をカバーしています。これは金融文書の領域として意味のある一部ですが、収益電話会議の書き起こし、監査報告書、ローン契約のコベナンツ(財務制限条項)、およびBeancountの元帳を埋め尽くすようなアドホックな仕訳の説明などは除外されています。これらの形式への汎用性は未解決の問題です。

なぜこれが金融AIにとって重要なのか

ハルシネーションは、Beancountの上に構築することを想定しているあらゆる自律型会計エージェントにとっての信頼性の問題です。書き戻し(write-back)のシナリオが最悪のケースです。銀行の明細を読み取り、取引を分類し、仕訳を転記するエージェント。もしそれが支払先、金額、または勘定科目をハルシネーションしてしまえば、元帳は密かに間違ったものになります。PHANTOMは、現実的な文書条件下でモデルがこの種の誤りを捉えられるかどうかを測定しようとした、私が知る限り最初のベンチマークです。

小規模モデル(7B)のハルシネーション検出性能がランダムに近いという発見は、Bean Labsに直接関連しています。デバイス上や低レイテンシのエージェントを実行する場合、7Bモデルが自らの出力を自己検証することに依存することはできません。より大規模な検証モデル、外部の検索チェック、あるいはハルシネーションを構造的に不可能にする制約付き出力フォーマット(例:エージェントが仕訳を転記する前に、ソース文書の行番号を引用することを強制するなど)のいずれかが必要です。ファインチューニングの結果は心強いものです。PHANTOMスタイルのデータによるドメイン固有の適応は、小規模モデルであっても検出能力の多くを回復させるようです。これは、ファインチューニングされた検証器が書き戻しパイプラインの実用的なコンポーネントになり得ることを示唆しています。

次に読むべきもの

  • SelfCheckGPT (Manakul et al., arXiv:2303.08896) — 参照文書なしのサンプルベースのハルシネーション検出。PHANTOMの参照に基づいたアプローチを補完し、自由形式の元帳アノテーションに対してより良く汎用化できる可能性があります。
  • "Lost in the Middle" (Liu et al., arXiv:2307.03172) — 長いコンテキストにおける位置的な注意力の低下に関する基礎的な論文。PHANTOMの配置に関する結果は、本質的にこれを金融ドメインで応用した再現実験です。
  • FinanceBench (Islam et al., 2023) — SEC提出書類に関するQAベンチマーク。検索機能を備えたGPT-4 Turboが150件のサンプルの81%で失敗したことを示しました。PHANTOMの検出側の視点に対し、生成側の補完として相性が良いです。