Chain-of-Thoughtプロンプティング:金融AIにおける適合率と再現率のトレードオフ
私は特定の問いを念頭に置いて、Wei氏らによる2022年のChain-of-Thought(CoT)論文(arXiv:2201.11903)を読み返しています。以前の実験では、CoTプロンプティングが金融の異常検知において適合率(Precision)を向上させる一方で、再現率(Recall)を損なうことが示されました。この論文はその理由を説明しているはずであり、少なくとも仮説を立てるのに十分なメカニズム的な直感を与えてくれるはずです。
論文について
Google BrainのJason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma氏らによる「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」は、CoTを世に 知らしめた論文です。考え方はシンプルです。モデルにいきなり答えを出すよう求めるのではなく、答えの前に書き出された推論プロセス(reasoning trace)が含まれるいくつかの例を見せます。すると、モデルは回答する前に自ら推論プロセスを生成するようになります。
この論文では、PaLM 540B、GPT-3 175B、LaMDA 137Bの3つの大規模言語モデルを用い、算数(GSM8K、SVAMP、AQuA)、常識推論(CommonsenseQA、StrategyQA)、記号推論(文字の連結、コイン投げ)のタスクでテストを行い、標準的なフューショット・プロンプティングと比較しています。
主要なアイデア
- GSM8K(算数の文章題): PaLM 540Bを用いた標準的なプロンプティングでは17.9%でしたが、CoTでは56.9%に達し、39ポイントの飛躍を見せました。これは難易度の高いベンチマークにおける驚異的な向上であり、この論文が正当に評価されている主要な成果です。
- 文字の連結: 標準では7.6%でしたが、CoTでは99.4%となりました。純粋な記号操作において、CoTは大規模モデルで実質的にタスクを解決します。
- CommonsenseQA: 標準で78.1%、CoTで79.9%。向上は最小限です。多段階の推論を必要としないタスクでは、あまり恩恵が得られません。
- スケールの壁: CoTが確実に効果を発揮するのは、おおよそ1,000億(100B)パラメータ以上のモデルです。約100億(10B)以下では、推論プロセス を追加することがかえって逆効果になることが多く、モデルは「流暢だが論理的に破綻した思考の連鎖」を生成し、自らを誤った方向へ導いてしまいます。
- 単純なタスクではメリットなし: MAWPS SingleOp(一段階の計算)では、PaLM 540Bは標準プロンプティングとCoTの両方で94.1%を記録しました。タスクが多段階の推論を必要としない場合、推論のオーバーヘッドは何の価値も付加しません。
- 正解の保証はない: 著者は、LLMが正しい答えを導かない一貫した見え方の推論プロセスを生成する可能性があることを明示しています。推論プロセスと答えは共同で生成されるものであり、どちらも独立して検証されているわけではありません。
裏付けられたこと、そうでないこと
経験的な結果は維持されています。GSM8Kでの向上は後続の研究でも再現されており、スケールの閾値も他で観察されたものと一致し、記号推論の数値もインコンテキスト学習のメカニズムから期待されるものと整合しています。この論文は真の科学的成果を上げました。
私が十分に探索されていないと感じるのは、適合率と再現率の非対称性です。Wei氏らは集計された正解率を示していますが、偽陽性(誤検知)率と偽陰性(見逃し)率の内訳は示していません。しかし、CoTが回答の分布をどのように変えるかを 考えると、そのメカニズムは示唆に富んでいます。CoTはモデルにある推論パスを生成させ、それに「コミット」させます。この生成空間の狭まりは、網羅性(再現率)を犠牲にして特定性(適合率)を高める可能性が高いです。モデルが生成する回答の総数は減り、生成されたものはより正当化されやすくなります。しかし、整然としたステップバイステップのナラティブに当てはまらない正解を見逃してしまう可能性があります。金融データの異常検知において、「異常」クラスは定義上稀であり、非定型的であるため、これはまさに予想される失敗モードです。
また、この論文はメカニズム的な問題を未解決のままにしています。著者らは、モデルが強い意味で「実際に推論している」とは主張しないよう注意を払っています。CoTが真の多段階推論を引き出しているのか、あるいはそのような推論を模倣した高度なパターンマッチングのショートカットを引き出しているのかは、まだ解決されていません。現代の推論モデル(o3-mini、o4-mini)をテストした2025年のウォートン報告書では、明示的なCoTの指示はわずか2〜3%の限定的な利益しか生まず、モデルが本来なら正解できたはずの質問でエラーを誘発し、「完全な正確性」を低下させることさえあることが判明しました。モデルが暗黙的な推論に習熟するにつれ、論文のスケール閾値は変化したかもしれませんが、CoTが本来正解だったはずの回答を狂わせるという不確実性の問題は依然として残っています。