본문으로 건너뛰기

파인튜닝 vs. RAG: LLM에 새로운 지식을 주입할 때 검색 기능이 우세한 이유

· 약 5분
Mike Thrift
Mike Thrift
Marketing Manager

Beancount 에이전트를 설계할 때 제가 계속 고민하게 되는 질문은 이것입니다. 원장 데이터가 변경될 때, 새로운 사실로 모델을 파인튜닝해야 할까요, 아니면 검색 시스템을 구축해야 할까요? Ovadia 등의 논문 "Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs" (EMNLP 2024, arXiv:2312.05934)는 제가 발견한 가장 깔끔한 실증적 해답을 제시하며, 파인튜닝에 대한 과도한 기대를 정면으로 반박합니다.

논문 요약

2026-05-20-fine-tuning-or-retrieval-knowledge-injection-llms

Oded Ovadia, Menachem Brief, Moshik Mishaeli, Oren Elisha는 LLM이 알고 있는 정보를 업데이트하는 두 가지 접근 방식을 비교합니다. 하나는 비지도 지속 사전 학습(unsupervised continual pre-training, 모델이 새로운 텍스트를 읽고 다음 토큰 예측을 계속함)이고, 다른 하나는 RAG(모델이 질의 시점에 검색된 구절을 전달받음)입니다. 저자들은 두 가지 지식 도메인에 대해 Llama2-7B, Mistral-7B, Orca2-7B라는 세 가지 7B 파라미터 모델을 테스트했습니다. 첫 번째 도메인은 모델이 사전 학습 중에 보았을 법한 해부학, 천문학, 대학 생물학 및 화학을 다루는 MMLU의 하위 집합이고, 두 번째는 모델의 학습 중단 시점 이후인 2023년 8월~11월 사이의 미국 사건에 대한 910개의 객관식 질문으로 구성된 맞춤형 시사 데이터셋입니다. RAG 파이프라인은 FAISS 인덱스 상에서 BGE-large-en 임베딩을 사용합니다. 파인튜닝은 4개의 A100 GPU에서 256토큰 단위의 위키피디아 청크를 사용하여 비지도 인과적 LM 학습을 수행했습니다.

핵심 아이디어

  • RAG는 완전히 새로운 지식에서 압도적인 성능을 보입니다: 시사 문제 작업에서 RAG만으로도 0.875(Mistral) 및 0.876(Orca)의 점수를 기록했는데, 이는 베이스 모델의 기준점인 0.3530.481에 비해 크게 향상된 수치입니다. 의역을 포함한 비지도 파인튜닝은 0.5040.511에 그쳤습니다. RAG는 학습 중단 시점 이후의 사실에 대해 파인튜닝이 달성한 정확도 향상 폭의 두 배 이상을 기록했습니다.
  • 파인튜닝의 한계는 새로운 지식이 아닌 기존 지식입니다: 모델이 사전 학습 중에 이미 접했던 MMLU 과목에서도 파인튜닝은 미미한 이득만을 얻었습니다. 반면 RAG는 5개 과목 모두에서 여전히 더 나은 성능을 보였습니다.
  • 의역(Paraphrases)은 도움이 되지만 속도가 느립니다: 각 학습 청크를 GPT-4로 생성한 의역본은 파인튜닝 결과를 단조적으로 개선했습니다(10개 버전이 1개보다 항상 나음). 저자들은 이것이 "A는 B이다"라고 학습된 모델이 "B는 A이다"라고 일반화하지 못하는 '역전의 저주'(Reversal Curse, Berglund 등, arXiv:2309.12288)를 부분적으로 해결할 수 있다고 제안합니다. 다만 저자들은 이 연관성에 대해 추가 연구가 필요하다고 덧붙였습니다.
  • 치명적 망각(Catastrophic forgetting)은 실질적인 비용입니다: 데이터 증강이 없는 Llama2는 시사 문제로 파인튜닝한 후 이전에 학습했던 작업에서 상당한 정확도 저하를 보였습니다. RAG는 이 문제를 완전히 우회합니다.
  • 두 방식을 결합하는 것이 항상 도움이 되지는 않습니다: 파인튜닝 + RAG 조합은 시사 문제 조건에서 0.520~0.830에 도달했는데, 이는 때때로 RAG 단독 성능보다 낮았습니다. 파인튜닝이 검색된 컨텍스트를 사용하는 모델의 능력을 방해하는 것으로 보입니다.

유효한 점과 그렇지 않은 점

핵심 결과는 신뢰할 만합니다. 명확한 시간적 차단점이 있는 910개의 질문 데이터셋은 비지도 파인튜닝이 완전히 새로운 사실을 주입하기에는 부족한 수단이라는 결론을 뒷받침하기에 충분합니다. 평가 설계가 깔끔하고 효과 크기가 큽니다.

사각지대 또한 존재합니다. 테스트된 세 모델 모두 7B 파라미터 모델이므로, 최신 대규모 모델에서 파인튜닝 격차가 줄어들지 혹은 늘어날지는 알 수 없습니다. 더 중요한 점은 파인튜닝 방법이 엄격하게 비지도 다음 토큰 예측에 국한되었다는 것입니다. LoRA, 인스트럭션 튜닝, 지도 학습용 QA 쌍 등은 사용되지 않았습니다. RAFT(Zhang 등, arXiv:2403.10131)와 같은 지도 도메인 적응 방식은 이 논문에서 다루지 않은 더 경쟁력 있는 대조군입니다. 따라서 "파인튜닝이 패배했다"는 결론은 실제로는 "비지도 파인튜닝이 패배했다"는 더 좁은 의미로 해석해야 합니다.

RAG 구현 또한 소박합니다. FAISS와 BGE-large-en을 사용한 기본적인 밀집 검색(dense retrieval) 방식이며, 재순위화(reranking)나 쿼리 확장(query expansion)은 없었습니다. 부록 노트에서는 최적의 K 값이 모델과 작업에 따라 상당히 다르며, 잘못된 수의 구절을 검색하면 성능이 크게 저하된다는 점을 인정하고 있습니다. 실제 운영 환경에서 도메인별 K-튜닝은 무시할 수 없는 운영 비용입니다.

한 가지 반박하고 싶은 주장은 의역이 파인튜닝에 도움이 된다는 발견이 역전의 저주를 완화할 수 있다는 프레임입니다. 이에 대한 증거는 간접적입니다. 의역 횟수에 따른 단조적 개선은 양방향 일반화에 대한 구조적 수정이라기보다 표준적인 데이터 증강의 이점을 반영하는 것일 수 있습니다. 이 연결고리는 흥미롭지만 입증되지는 않았습니다.

금융 AI에 시사하는 바

이 논문은 Bean Labs의 향후 계획에 가장 직접적으로 적용 가능한 논문 중 하나입니다. Beancount 에이전트는 거래가 추가되거나, 규칙이 바뀌거나, 새로운 회계 연도가 시작될 때마다 매번 재학습될 수 없습니다. 이 논문은 원장을 파인튜닝 자료가 아닌 검색 말뭉치(corpus)로 취급하는 것을 강력하게 지지합니다. 파인튜닝을 통한 사실적 이득은 미미하고, 치명적 망각의 위험은 실재하며, 재학습의 운영 비용은 재색인(re-indexing) 비용을 훨씬 초과하기 때문입니다.

의역에 관한 발견은 파인튜닝을 배제하더라도 유용한 점을 시사합니다. 특정 도메인의 회계 규칙이 모델의 행동에 깊이 내재되어야 한다면(단순히 검색되는 것이 아니라 안정적으로 준수되어야 함), 단일한 표준 문구보다는 다양한 형태(제약 조건, 유효성 검사, 위반 사례 등)로 표현하는 것이 훨씬 더 견고할 것입니다. 이는 실제 회계 교육 방식과도 일치하며, Constitutional AI의 규칙 준수 연구에서 규칙의 적용 범위를 설정하는 방식과도 일맥상통합니다.

치명적 망각 결과는 가장 명확한 실무적 경고입니다. 원장 데이터에 대한 비지도 도메인 적응은 이상 탐지나 질의 응답에 필요한 일반적인 추론 능력을 저하시킬 수 있습니다. 검색 방식은 인덱스와 리트리버를 유지하는 비용만으로 이 문제를 우회하며, 이는 충분히 가치 있는 트레이드오프입니다.

더 읽어보기

  • The Reversal Curse (Berglund 등, arXiv:2309.12288, ICLR 2024) — Ovadia 등이 인용한 논문으로, LLM이 학습 데이터로부터 양방향 함의를 추론하는 데 실패하는 이유를 설명하고 지식 주입을 위한 파인튜닝의 근본적인 한계를 제시합니다.
  • RAFT: Adapting Language Model to Domain Specific RAG (Zhang 등, arXiv:2403.10131) — RAG를 대체하는 것이 아니라 RAG와 함께 작동하도록 설계된 지도 파인튜닝 레시피로, 본 논문에서 테스트된 비지도 방식보다 더 경쟁력 있는 파인튜닝 대조군을 제시합니다.
  • Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge (arXiv:2403.01432) — 비교 범위를 롱테일 엔티티 지식으로 확장하며, 여기서도 RAG가 우세함을 보이고 경량 대안으로 Stimulus RAG를 제안합니다.