メインコンテンツまでスキップ

ファインチューニング vs. RAG:LLMへの新しい知識の注入において検索が勝る理由

· 約9分
Mike Thrift
Mike Thrift
Marketing Manager

Beancountエージェントを設計する際に、私が何度も立ち戻る問いがあります。それは「元帳データが変更されたとき、新しい事実に合わせてモデルをファインチューニングすべきか、それとも検索システムを構築すべきか」というものです。Ovadiaらによる論文「Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs」(EMNLP 2024, arXiv:2312.05934)は、私が見つけた中で最も明快な実証的回答を提示しており、それはファインチューニングに対する過度な期待を鋭く否定するものでした。

論文の概要

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

Oded Ovadia、Menachem Brief、Moshik Mishaeli、Oren Elishaの研究チームは、LLMの知識を更新するための2つのアプローチを比較しました。一つは教師なし継続事前学習(モデルが新しいテキストを読み込み、次トークン予測を継続する手法)、もう一つはRAG(クエリ実行時に取得したパッセージをモデルに提供する手法)です。彼らは3つの70億パラメータ(7B)モデル(Llama2-7B、Mistral-7B、Orca2-7B)を使用し、2つの知識ドメインでテストを行いました。一つは解剖学、天文学、大学生物学、化学を含むMMLUのサブセット(モデルが事前学習で既に見ている可能性が高い知識)、もう一つは2023年8月から11月までの米国に関する910問の多肢選択式問題からなる独自の時事問題データセット(モデルの学習カットオフを明示的に超えているもの)です。RAGパイプラインはFAISSインデックス上でBGE-large-enエンベディングを使用し、ファインチューニングはWikipediaの256トークンのチャンクを用いて4枚のA100 GPUで教師なし因果的言語モデル(Causal LM)学習を行いました。

主要な洞察

  • 真に新しい知識においてRAGが圧倒する: 時事問題タスクにおいて、RAG単体では0.875(Mistral)および0.876(Orca)のスコアを記録したのに対し、ベースモデルの基準値は0.353〜0.481でした。パラフレーズ(言い換え)を用いた教師なしファインチューニングは0.504〜0.511に留まりました。RAGは、学習カットオフ後の事実において、ファインチューニングが達成した精度向上の2倍以上の成果を上げました。
  • ファインチューニングの限界は既存の知識にあり、新しい知識にはない: 事前学習中にモデルが既に遭遇していたMMLUの主題においてさえ、ファインチューニングによる利益はわずかでした。RAGは依然として全5科目でファインチューニングを上回りました。
  • パラフレーズは効果的だが、進歩は緩やか: 各トレーニングチャンクに対してGPT-4で生成したパラフレーズを追加すると、ファインチューニングの結果は単調に改善されました。10パターンのパラフレーズは常に1パターンを上回り、著者らはこれが「逆転の呪い(Reversal Curse)」(Berglundら, arXiv:2309.12288、つまり「AはBである」と学習したモデルが「BはAである」と一般化できない現象)を部分的に解決する可能性があると示唆しています。ただし、この関連性についてはさらなる研究が必要であると注意を促しています。
  • 致命的忘却は現実的なコスト: データ拡張を行わないLlama2では、時事問題でファインチューニングを行った後、以前に学習したタスクの精度が著しく低下しました。RAGはこの問題を完全に回避できます。
  • 両方の組み合わせは必ずしも役に立たない: ファインチューニング + RAGは、時事問題の条件下で0.520〜0.830に達しましたが、これは時としてRAG単体よりも低い数値でした。ファインチューニングは、モデルが検索されたコンテキストを利用する能力を阻害するように見えます。

妥当性と限界

この研究の核心的な発見は信頼に値するものです。明確な時間的カットオフを持つ910問のデータセットは、結果の方向性を信じるに十分な規模です。教師なしファインチューニングは、真に新しい事実を注入するための手段としては不十分であると言えます。評価設計はクリーンであり、その効果の差は歴然としています。

一方で、盲点も存在します。テストされた3つのモデルはすべて7Bパラメータであり、最先端の巨大スケールモデルにおいてこのファインチューニングのギャップが縮小するのか、あるいは拡大するのかは不明です。より重要なのは、ここでのファインチューニング手法が厳密には「教師なし次トークン予測」である点です。LoRAも、インストラクションチューニングも、教師ありQAペアも使用されていません。RAFT(Zhangら, arXiv:2403.10131)のような教師ありドメイン適応アプローチはより強力な比較対象となりますが、この論文では扱われていません。「ファインチューニングは負ける」という結論は、実のところ「教師なしファインチューニングは負ける」という、より限定的な主張です。

RAGの実装も控えめなものです。FAISSとBGE-large-enを用いた基本的な高密度検索(Dense Retrieval)のみで、リランキング(再順位付け)やクエリ拡張は行われていません。付録では、最適なK値(検索件数)がモデルやタスクによって大きく異なり、誤った数を選択するとパフォーマンスが著しく低下することが認められています。本番環境において、ドメインごとにK値を調整することは無視できない運用コストとなります。

また、パラフレーズがファインチューニングを助けるという発見が「逆転の呪い」を改善する可能性があるという主張については、証拠が間接的であると感じます。パラフレーズ数による単調な改善は、双方向の一般化に対する構造的な修正というより、標準的なデータ拡張のメリットを反映しているに過ぎない可能性があります。この関連性は興味深いですが、まだ立証されてはいません。

なぜ金融AIにとって重要なのか

この論文は、Bean Labsのアジェンダにとって最も直接的に活用可能なものの一つです。Beancountエージェントは、取引が追加されたり、ルールが変更されたり、新しい会計年度が始まったりするたびに再学習させるわけにはいきません。この論文は、元帳をファインチューニングの材料としてではなく、検索コーパスとして扱うことを強力に支持しています。ファインチューニングによる事実的な利得はわずかであり、致命的忘却のリスクは現実的で、再学習の運用コストはインデックスの再構築コストをはるかに上回るからです。

パラフレーズに関する知見は、ファインチューニングを脇に置いたとしても有用です。特定のドメインにおける会計規則をモデルの挙動に深く組み込む必要がある場合(単に検索するだけでなく、確実な「遵守」が求められる場合)、それを単一の規範的な記述としてではなく、複数の形式(制約、検証チェック、違反事例の例示)で表現する方が、より堅牢になる可能性が高いと言えます。これは会計教育の仕組みと同じであり、憲法的AI(Constitutional AI)のルール遵守研究における枠組みとも一致します。

致命的忘却の結果は、最も明確な実務上の警告です。元帳データに対する教師なしドメイン適応は、異常検知やクエリ応答に必要な一般的な推論能力を損なう可能性があります。検索(RAG)は、インデックスとリトリーバーのコストを払うだけでこの問題を回避できます。これは十分に価値のあるトレードオフです。

次に読むべき資料

  • The Reversal Curse (Berglund et al., arXiv:2309.12288, ICLR 2024) — Ovadiaらが引用している論文。LLMが学習データから双方向の含意に失敗する理由を説明し、事実注入のためのファインチューニングの根本的な限界を枠組み化しています。
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang et al., arXiv:2403.10131) — RAGを置き換えるのではなく、RAGと「共に」動作するように設計された教師ありファインチューニングのレシピ。本論文でテストされた教師なし手法よりも競争力のあるファインチューニングの基準となります。
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — 比較をロングテールなエンティティ知識へと拡張した研究。ここでもRAGが優位性を示しており、軽量な代替案としてStimulus RAGを提案しています。