メインコンテンツまでスキップ

LLMはまだ推論を自己修正できない — ICLR 2024の知見と金融AIへの示唆

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

この論文は、私が最近読んできたCRITICやReflexionといった一連の研究に対する直接的な対照点(カウンターポイント)となります。Huang氏ら(ICLR 2024)は、シンプルで不都合な事実を主張しています。LLMが外部からの信号なしに自身の推論を自己修正しようとすると、精度は向上せず、むしろ悪化するというのです。ツールに基づいた批判が実際に効果を発揮したCRITICに関するLOG-013の直後に発表されたこの論文は、どのような「自己修正」が本物で、何が実験設定による副産物に過ぎないのかを明確にしています。

論文について

2026-04-28-llms-cannot-self-correct-reasoning-yet

Google DeepMindとUIUCのJie Huang、Xinyun Chen、Swaroop Mishra、Huaixiu Steven Zheng、Adams Wei Yu、Xinying Song、Denny Zhouによる論文「Large Language Models Cannot Self-Correct Reasoning Yet(大規模言語モデルはまだ推論を自己修正できない)」は、ICLR 2024で発表されました。その中心的な主張は限定的ですが、ある種のエージェント設計にとっては壊滅的なものです。すなわち、「内在的(intrinsic)」な自己修正(正解の信号なしに、LLM自身の判断のみを用いて自身の回答をレビュー・修正させること)は、推論ベンチマークにおいて一貫してパフォーマンスを低下させるという事実です。著者らは、過去のいくつかの自己修正に関する論文で報告された改善は、微妙な方法論的欠陥によるものだと論じています。それらの論文では、修正をいつ停止するかを判断するためにオラクル・ラベル(正解)を使用しており、実質的にモデルは「すでに間違っている回答」のみを修正していました。これは自己修正ではなく、オラクル誘導によるフィルタリングに過ぎません。

主要なコンセプト

  • GSM8Kにおいて、GPT-4の初期精度は95.5%ですが、1回の内在的自己修正後には91.5%に低下し、2回目には89.0%まで落ち込みます。GPT-3.5も2回の修正で75.9%から74.7%に低下しました。
  • CommonSenseQAではさらに劇的な低下が見られました。GPT-3.5は1回の自己修正で75.8%から38.1%に急落し、2回目で41.8%までわずかに回復したものの、ベースラインを大幅に下回る壊滅的な結果となりました。
  • GSM8Kでの回答の変化を分析すると、モデルが「正しい回答を誤りに変える」頻度は、「誤った回答を正解に変える」頻度よりも高いことがわかりました。変化の正味の方向性は有害です。
  • オラクル誘導型の自己修正は確かに改善をもたらします。オラクル・ラベルを用いたGSM8KでのGPT-4は95.5%から97.5%に、CommonSenseQAでのGPT-3.5は75.8%から89.7%に向上しました。しかし、これにはどの回答が間違っているかを事前に知る必要があり、実際の運用環境では不可能です。
  • 人気のあるもう一つの手法である「マルチエージェント討論」も、推論予算を合わせた場合、単純な自己整合性(self-consistency)手法に劣ります。合計9つの回答を生成する場合、自己整合性はGSM8Kで88.2%に達しますが、マルチエージェント討論は83.0%に留まりました。
  • 制約付き生成(CommonGen-Hard)は、一見すると自己修正が有効であるかのように見えますが(44% → 67%)、初期プロンプトを改善するだけで(81.8%)、その優位性は消滅します。初期プロンプトが十分に優れている場合、自己修正は逆に精度を75.1%まで低下させます。

何が妥当で、何がそうでないか

この論文の核心的な発見は揺るぎないものです。数字がそれを証明しています。GPT-4に対して、どの回答が間違っているか教えずに数学の回答を再考するよう促すと、平均して回答は悪化します。論文が提示している直感も正しいものです。LLMは自身の推論の正しさを確実には判断できないため、回答を変更しようと判断した際、それは推測に頼ることになり、正解を導くのと同じかそれ以上の頻度で誤りを生み出します。

一方で、汎用性に関する主張については、やや説得力に欠ける部分があります。この研究では推論と知識タスクのみをテストしています。文章のスタイル、フォーマット制約の遵守、毒性の低減といった領域では、反復的な修正が実際に役立つ可能性があり、この論文ではそれらをほぼ避けています。著者らも「評価がより単純なタスクでは自己修正がより効果的である可能性がある」と付言していますが、厳密な検証は行っていません。CommonGenの実験は示唆的ですが、不十分な初期プロンプトをベースラインとし、その改善を「自己修正」と呼ぶことは、著者らが他者の研究を批判した際と同じ方法論的欠陥を含んでいると言えます。

また、この論文は「訓練された自己修正」の問題には触れていません。2025年のフォローアップ研究(SCoRe, ICLR 2025, arXiv:2409.12917)では、モデル自身の出力に対して強化学習(RL)を用いた自己修正を行うことで、MATHで+15.6%、HumanEvalで+9.1%という、真の内在的改善を達成できることが示されています。したがって、「まだ(yet)自己修正できない」というタイトルは、強い否定よりも先見の明があったと言えます。正確な解釈は「プロンプトだけで自己修正させることはできない」であり、「自己修正を学習することはできない」ではありません。

なぜこれが金融AIにとって重要なのか

元帳書き戻しエージェント(ledger write-back agents)への示唆は具体的です。Beancountの仕訳を生成し、その後で自分自身に「これは正しいか?」と問いかけて修正させるエージェントは、セカンドオピニオンを得ているのではなく、単にノイズを導入しているだけです。今回のデータが示す通り、最初の回答が間違っていた場合、自己レビューは間違いを修正するのと同じくらい、正しい回答を破壊してしまう可能性があります。

この論文が裏付けているのは、私がCRITICから導き出した設計上の制約です。すなわち、「外部のオラクルなしでの自己検証は信頼できない」ということです。特にBeancountの場合、外部のオラクルは利用可能で安価です。残高アサーションはミリ秒単位で実行でき、勘定科目名は既存の勘定科目表に対して検証可能であり、金額は1セント単位で一致しなければなりません。暫定的な仕訳を送信し、bean-checkを実行し、エラーを具体的な構造化フィードバックとして送り返すエージェント・アーキテクチャは、「仕訳をレビューして」とモデルに頼むものとは根本的に異なります。前者は元帳エンジンをオラクルとして使用していますが、後者はエラーを生み出したのと同じ推論メカニズムに依存しているからです。

また、プロンプト設計についても微妙な教訓があります。CommonGenの実験が示すように、プロンプトがすでに正確で明示的である場合、自己修正はパフォーマンスを低下させます。つまり、Beancountの構文規則をすべて明示的に述べた、非常に明確な取引パース用プロンプトの作成に労力を費やした場合、その上に自己レビュー・ループを追加することは、むしろ精度を損なう可能性があるということです。正しいアーキテクチャは、おそらくすべての生成に対してではなく、外部チェックに失敗した時のみ自己レビューを行うように制限すべきでしょう。

次に読むべきもの

  • SCoRe: Training Language Models to Self-Correct via Reinforcement Learning (arXiv:2409.12917, ICLR 2025) — 強化学習ベースのアプローチ。初めて真の内在的自己修正の利得を達成しており、本論文が何を否定し、何が可能かを理解するために不可欠な文脈です。
  • When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs (TACL 2024) — 自己修正が機能する場合の体系的な分類。内在的、訓練ベース、ツール支援型のバリエーションを区別しています。
  • Self-Refine: Iterative Refinement with Self-Feedback (NeurIPS 2023) — Huang氏らが批判した主要な論文。これらを読み比べることで、オラクル・ラベルの仮定がどこに組み込まれているかが明確になります。