メインコンテンツまでスキップ

Chain-of-Thoughtプロンプティング:金融AIにおける適合率と再現率のトレードオフ

· 約8分
Mike Thrift
Mike Thrift
Marketing Manager

私は特定の問いを念頭に置いて、Wei氏らによる2022年のChain-of-Thought(CoT)論文(arXiv:2201.11903)を読み返しています。以前の実験では、CoTプロンプティングが金融の異常検知において適合率(Precision)を向上させる一方で、再現率(Recall)を損なうことが示されました。この論文はその理由を説明しているはずであり、少なくとも仮説を立てるのに十分なメカニズム的な直感を与えてくれるはずです。

論文について

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

Google BrainのJason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma氏らによる「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」は、CoTを世に知らしめた論文です。考え方はシンプルです。モデルにいきなり答えを出すよう求めるのではなく、答えの前に書き出された推論プロセス(reasoning trace)が含まれるいくつかの例を見せます。すると、モデルは回答する前に自ら推論プロセスを生成するようになります。

この論文では、PaLM 540B、GPT-3 175B、LaMDA 137Bの3つの大規模言語モデルを用い、算数(GSM8K、SVAMP、AQuA)、常識推論(CommonsenseQA、StrategyQA)、記号推論(文字の連結、コイン投げ)のタスクでテストを行い、標準的なフューショット・プロンプティングと比較しています。

主要なアイデア

  • GSM8K(算数の文章題): PaLM 540Bを用いた標準的なプロンプティングでは17.9%でしたが、CoTでは56.9%に達し、39ポイントの飛躍を見せました。これは難易度の高いベンチマークにおける驚異的な向上であり、この論文が正当に評価されている主要な成果です。
  • 文字の連結: 標準では7.6%でしたが、CoTでは99.4%となりました。純粋な記号操作において、CoTは大規模モデルで実質的にタスクを解決します。
  • CommonsenseQA: 標準で78.1%、CoTで79.9%。向上は最小限です。多段階の推論を必要としないタスクでは、あまり恩恵が得られません。
  • スケールの壁: CoTが確実に効果を発揮するのは、おおよそ1,000億(100B)パラメータ以上のモデルです。約100億(10B)以下では、推論プロセスを追加することがかえって逆効果になることが多く、モデルは「流暢だが論理的に破綻した思考の連鎖」を生成し、自らを誤った方向へ導いてしまいます。
  • 単純なタスクではメリットなし: MAWPS SingleOp(一段階の計算)では、PaLM 540Bは標準プロンプティングとCoTの両方で94.1%を記録しました。タスクが多段階の推論を必要としない場合、推論のオーバーヘッドは何の価値も付加しません。
  • 正解の保証はない: 著者は、LLMが正しい答えを導かない一貫した見え方の推論プロセスを生成する可能性があることを明示しています。推論プロセスと答えは共同で生成されるものであり、どちらも独立して検証されているわけではありません。

裏付けられたこと、そうでないこと

経験的な結果は維持されています。GSM8Kでの向上は後続の研究でも再現されており、スケールの閾値も他で観察されたものと一致し、記号推論の数値もインコンテキスト学習のメカニズムから期待されるものと整合しています。この論文は真の科学的成果を上げました。

私が十分に探索されていないと感じるのは、適合率と再現率の非対称性です。Wei氏らは集計された正解率を示していますが、偽陽性(誤検知)率と偽陰性(見逃し)率の内訳は示していません。しかし、CoTが回答の分布をどのように変えるかを考えると、そのメカニズムは示唆に富んでいます。CoTはモデルにある推論パスを生成させ、それに「コミット」させます。この生成空間の狭まりは、網羅性(再現率)を犠牲にして特定性(適合率)を高める可能性が高いです。モデルが生成する回答の総数は減り、生成されたものはより正当化されやすくなります。しかし、整然としたステップバイステップのナラティブに当てはまらない正解を見逃してしまう可能性があります。金融データの異常検知において、「異常」クラスは定義上稀であり、非定型的であるため、これはまさに予想される失敗モードです。

また、この論文はメカニズム的な問題を未解決のままにしています。著者らは、モデルが強い意味で「実際に推論している」とは主張しないよう注意を払っています。CoTが真の多段階推論を引き出しているのか、あるいはそのような推論を模倣した高度なパターンマッチングのショートカットを引き出しているのかは、まだ解決されていません。現代の推論モデル(o3-mini、o4-mini)をテストした2025年のウォートン報告書では、明示的なCoTの指示はわずか2〜3%の限定的な利益しか生まず、モデルが本来なら正解できたはずの質問でエラーを誘発し、「完全な正確性」を低下させることさえあることが判明しました。モデルが暗黙的な推論に習熟するにつれ、論文のスケール閾値は変化したかもしれませんが、CoTが本来正解だったはずの回答を狂わせるという不確実性の問題は依然として残っています。

なぜこれが金融AIにとって重要なのか

Bean Labsのアジェンダに関連する3つのポイント:

第一に、書き戻しの安全性(write-back safety)の問題です。元帳へのアクションを実行する前に推論を説明するCoTプロンプトのエージェントは、監査証跡(audit trail)を提供しますが、その推論プロセスは正確性を保証するものではありません。エージェントは、誤ったアクションに対してももっともらしい説明を生成できてしまいます。これは、ユーザーに推論プロセスを見せることが、真の監査可能性ではなく、誤った信頼感を生む可能性があることを意味します。

第二に、異常検知の非対称性です。もしCoTが稀なイベントの検知タスクにおいて適合率を上げ、再現率を下げるのであれば、Beancountのユースケース(分類ミスの取引の特定、重複エントリのフラグ立て、ポリシー違反の捕捉)において、CoTを無批判に使うことは、本当の問題を見逃す代わりに誤報を減らす結果を招くかもしれません。これは潜在的に誤ったトレードオフです。疑わしいものをフラグ立てしなかった理由を自信満々に説明する金融エージェントは、フラグを立てすぎるエージェントよりも危険です。

第三に、スケール依存性です。コストやレイテンシの理由からプロダクション環境の金融エージェントを小規模なモデルで実行する場合、CoTによる利益は消失し、むしろ逆転する可能性があります。CoTベースの金融エージェントの評価は、プロダクションで使用されるのと同じモデルスケールで行われる必要があります。

次に読むべきもの

  • 「Self-Consistency Improves Chain of Thought Reasoning in Language Models」 (Wang et al., 2022, arXiv:2203.11171) — 複数のCoTパスをサンプリングし、多数決を取ることで、Wei氏らが指摘した分散の問題に直接対応しています。
  • 「Large Language Models are Zero-Shot Reasoners」 (Kojima et al., 2022, arXiv:2205.11916) — 例示なしで「順を追って考えましょう(Let's think step by step)」と言うだけでも推論が引き出されることを示し、CoTが実際に何を必要としているかの境界をテストしています。
  • 「Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?」 (arXiv:2508.01191) — オリジナルの論文が残したメカニズム的な問いに直接切り込んでいます。