メインコンテンツまでスキップ

自己整合性:多数決サンプリングによる思考の連鎖(Chain-of-Thought)精度の向上

· 約8分
Mike Thrift
Mike Thrift
Marketing Manager

LOG-009では、算術処理をPythonインタープリタにオフロードすることで、モデル自体が計算を行う必要をなくすPALについて解説しました。自己整合性(Self-consistency)は、それとは直交する問題に取り組みます。つまり、「モデルがほとんどの場合は正しく推論するが、常にではない場合はどうするか」という問題です。その答えは、アーキテクチャではなく統計的なものであり、驚くほど効果的であることが分かりました。

論文の概要

2026-04-24-self-consistency-chain-of-thought

Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le、Ed Chi、Sharan Narang、Aakanksha Chowdhery、Denny Zhouによる論文「Self-Consistency Improves Chain of Thought Reasoning in Language Models」(ICLR 2023, arXiv:2203.11171)は、単一の貪欲な(greedy)思考の連鎖パスを、サンプリングされた多数のパスに基づく多数決に置き換えるデコード戦略を導入しています。その直感的な考え方は簡潔です。難しい推論問題には通常、1つの正しい答えがありますが、そこに至る有効なルートは多数存在します。一方で、間違った答えは特異な誤りによって導かれる可能性が高く、それらがすべて同じ間違いに収束することはありません。

この手法はプラグアンドプレイで導入可能です。既存の思考の連鎖(CoT)プロンプトを使用し、0より大きい温度係数(temperature)でN個の回答をサンプリングし、それぞれから最終的な答えを抽出して、最頻値を返します。追加のファインチューニングも、別のモデルも、人間による追加のラベル付けも必要ありません。

主なアイデア

  • サンプルサイズと温度係数: 本論文では、温度係数0.7で1つの問題につき40の推論パスを使用しています。これはハイパーパラメータ調整による魔法の数字ではありません。アブレーション研究(要素別評価)により、20〜30サンプルを超えると利益が飽和することが示されており、40という数字は保守的な設定です。
  • 標準的なCoTに対する主要な向上: GSM8Kで+17.9%、SVAMPで+11.0%、AQuAで+12.2%、StrategyQAで+6.4%、ARC-challengeで+3.9%と、いずれも同じモデルとプロンプトを使用しながら、絶対的な精度向上が見られました。
  • モデル別のGSM8Kの結果: text-davinci-002(GPT-3)では、自己整合性によって精度が78.7%から86.5%に向上しました。Codexでは74.5%から82.3%に向上しました。この効果はモデルファミリーを問わず一貫しています。
  • トレーニングコストゼロ: すべての処理は推論時に行われます。このアプローチは、温度係数 > 0 でサンプリング可能なあらゆるブラックボックスAPIで機能します。
  • 抽出可能な回答に対する多数決: 回答が離散的(数値、選択肢など)である場合、集計ステップは明確に機能します。自由形式の生成については、「最も一貫性がある」回答をどう定義するかについて、著者らも限界を認めており、詳細はあまり語られていません。

評価:維持される点とそうでない点

実証的な精度向上は本物であり、何度も再現されており、この手法は極めて有用です。しかし、いくつかの構造的な弱点については精査が必要です。

第一に、コストはサンプル数に比例して線形に増加します。推論時に40のパスをサンプリングすると、単一パスの40倍のトークン予算がかかります。一晩で数百の取引を処理するエージェントのように、遅延とAPIコストが重要なタスクでは、これは無視できない問題です。後続の研究(Early-Stopping Self-Consistency, ICLR 2024)では、票数が信頼しきい値に達した時点でサンプリングを停止することで、精度を落とさずにGSM8Kでのサンプル数を80%削減できるとして、この問題に対処しています。元の論文でコストについて全く議論されていないのは、奇妙な欠落と言えます。

第二に、モデルが体系的に間違っている場合、多数決の前提が崩れます。もしモデルが40すべてのパスにおいて、特定の通貨換算を誤認したり、税制ルールを誤用したりする場合、間違った答えが多数決で勝ってしまいます。自己整合性は、正しい答えではなく「最も一般的な誤り」を増幅させることになります。これが認識論的な核心的ギャップです。この手法はモデルの信念分布内での「適合率」を高めますが、分布そのものが間違った答えを中心としている場合の「較正」には役立ちません。

第三に、Wang & Wang (2025, arXiv:2503.16974) は、50回の独立した実行を通じて、金融および会計タスクにおけるLLMの整合性を直接調査しました。その結果、二値分類や感情分析は単一のサンプルですでにほぼ完璧に再現可能である一方、複雑なタスク(予測、生成)は真の変動性を示すことが分かりました。彼らの実用的な発見として、わずか3〜5回の実行を統合するだけで複雑なタスクの整合性が劇的に向上することが示されています。これは自己整合性と同じアイデアの、より安価なバージョンと言えます。

なぜこれが金融AIにとって重要なのか

多段階の算術処理を伴うBeancountの元帳操作(税計算、為替調整後の取得価額、減価償却スケジュール、請求書の照合など)は、単一の貪欲なデコードが信頼できない一方で、正解が一意で検証可能なタスクの典型例です。自己整合性は安価な介入策であり、出力が検証可能である(貸借対照表のバランスが取れているか、など)あらゆる財務エージェントタスクにおいて、デフォルトで採用されるべきです。

より興味深いのは、アーキテクチャ上の示唆です。自己整合性は推論を投票アンサンブルに変えます。元帳に仕訳を投稿するエージェントのような、書き戻しの安全性が求められるケースでは、「40パスのうち35パスが一致した場合のみコミットする」といった多数決の信頼性を条件にしたいところです。意見の不一致は、エージェントが書き込みを行うのではなく、人間にエスカレーションすべきであるというシグナルになります。これは、エンジニアリングの複雑さを増すことなく、推論予算だけで実装可能な具体的な安全ゲートです。

体系的なバイアスによる失敗モードは、モデルが管轄区域固有の詳細をハルシネーション(幻覚)することが知られている税務や規制ルールの文脈で特に重要になります。そのようなケースでは、PAL(LOG-009)が適切な解決策となります。つまり、計算を完全にオフロードするのです。自己整合性とPALは相互補完的です。PALは算術の正しさを処理し、自己整合性は曖昧さと推論の信頼性を処理します。

次に読むべきもの

  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Yao et al., 2023, arXiv:2305.10601) — 自己整合性を「パスに対する投票」から「パスに対する探索」に拡張したもので、推論空間が並列ではなく分岐している場合に重要になります。
  • Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning (Lei et al., ICLR 2024) — コスト問題に対する修正案です。精度を維持しつつ、GSM8Kでのサンプリングを80%以上削減します。
  • Universal Self-Consistency for Large Language Models (Chen et al., arXiv:2311.17311) — LLMを判定役(judge)として使用することで、元の論文が避けていた自由形式の生成に対しても多数決を拡張しています。