FLARE: 능동적 검색 증강 생성(Active Retrieval Augmented Generation)

2026년 5월 18일 · 약 5분

Mike Thrift

Marketing Manager

지난주에 Lewis 등이 발표한 기초적인 RAG 논문을 읽었습니다. 한 번 검색하고 결과를 앞에 붙인 뒤 생성하는 방식이죠. 이 방식은 효과가 있지만, 무엇이 필요할지 미리 알고 있다는 가정을 전제로 합니다. FLARE(EMNLP 2023)는 그 가정을 정면으로 공격합니다. 모델이 불확실해지기 시작하는 문장 중간이 검색하기 가장 적절한 시점이라면 어떨까요? 이 질문은 단일 컨텍스트 창에 담을 수 없는 장부 내역을 추론해야 하는 Beancount 에이전트와 같은 시스템에 매우 중요한 고민입니다.

논문 내용

2026-05-18-flare-active-retrieval-augmented-generation

Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, Graham Neubig이 발표한 "Active Retrieval Augmented Generation"은 FLARE(Forward-Looking Active REtrieval augmented generation)를 제안합니다. 이들이 해결하려는 문제는 긴 문장을 생성하는 동안 모델이 확장된 출력 전체에 걸쳐 여러 지식을 끌어와야 할 때 발생하는 환각(hallucination) 현상입니다. 표준 RAG는 쿼리 시점에 한 번만 검색하며 검색된 구절이 생성에 필요한 모든 내용을 담고 있기를 바랍니다. 이는 짧은 답변에는 괜찮지만, 여러 단락으로 구성된 응답에는 취약합니다.

FLARE는 생성을 문장 단위의 단계로 나눕니다. 각 단계에서 다음 문장 후보를 생성합니다. 만약 해당 후보의 어떤 토큰이라도 예측 확률이 임계값 θ 미만이라면, FLARE는 이러한 낮은 신뢰도 구간을 검색 신호로 간주합니다. 이를 마스킹하거나 완성된 형태로 사용하여 쿼리를 구성하고, 위키피디아에서 검색한 뒤 검색된 컨텍스트와 함께 문장을 다시 생성합니다. 결과적으로 모델은 불확실한 시점과 위치에서만 검색을 수행하며, 필요하지도 않은 콘텐츠를 위해 미리 검색을 몰아서 하지 않게 됩니다. 모든 실험은 미세 조정 없이 GPT-3.5(text-davinci-003)에서 수행되었습니다.

핵심 아이디어

검색 트리거로서의 신뢰도: 토큰 확률이 θ 미만이면 모델이 환각을 일으킬 가능성이 높다는 신호입니다. 검색은 기본값이 아니라 이때만 트리거됩니다. 저자들은 문장의 40~80%에서 트리거가 발생할 때 일반적으로 가장 효과적이라는 것을 발견했습니다.
미래 예측형 쿼리(Forward-looking queries): 이미 생성된 내용만을 쿼리로 사용하는("이전 창" 방식) 대신, FLARE는 예측된 다음 문장(모델이 말할 것으로 생각하는 내용)을 훨씬 더 정밀한 검색 쿼리로 사용합니다.
두 가지 변형: FLARE-instruct는 낮은 신뢰도 토큰을 마스킹하고 마스킹된 구간을 쿼리로 사용합니다. FLARE-direct는 예측된 문장 전체를 사용합니다. 2WikiMultihopQA에서 direct 변형은 51.0 EM을 달성한 반면, instruct 변형은 42.4를 기록했습니다.
단일 검색 대비 성능 향상은 확실하지만 균일하지 않음: 2WikiMultihopQA에서 FLARE-direct는 51.0 EM을 기록하며 단일 검색(39.4)이나 검색 없음(28.2) 대비 결정적인 개선을 보여주었습니다. 하지만 ASQA에서는 격차가 훨씬 작았으며(41.3 대 40.0), WikiAsp(UniEval 53.4 대 52.4)는 거의 차이가 없었습니다.
명시적인 실패 사례: 저자들은 짧은 출력이 위주인 Wizard of Wikipedia와 ELI5에서는 다단계 검색이 이점 없이 오버헤드만 추가하여 성능 향상이 없었다고 보고했습니다.
비용: 생성과 검색이 엇갈려 나타나기 때문에 각 사례마다 여러 번의 LM 완료 호출과 검색 호출이 발생할 수 있습니다. 캐싱이 간단하지 않습니다.

유효한 점과 그렇지 않은 점

미래 예측형 프레이밍은 진정으로 영리한 부분입니다. 예측된 콘텐츠를 검색 쿼리로 사용하는 것은 접두사(prefix)만 사용하는 것보다 더 유익합니다. 특히 중간 결론이 다음에 필요한 사실을 결정하는 멀티홉(multi-hop) 작업에서 더욱 그렇습니다. 2WikiMultihopQA에서의 51.0 대 39.4 EM 격차가 이를 뒷받침합니다.

하지만 FLARE의 신뢰도 신호는 전적으로 모델의 캘리브레이션(calibration) 정도에 달려 있습니다. text-davinci-003과 같은 기본 완료 모델의 토큰 확률은 불확실성과 어느 정도 상관관계가 있습니다. 그러나 지시어 튜닝(instruction-tuned)이나 RLHF 미세 조정을 거친 채팅 모델은 종종 과잉 확신(overconfident)을 보입니다. 즉, 환각을 일으키면서도 높은 확률의 토큰을 내뱉습니다. 2024년 후속 연구인 Unified Active Retrieval(UAR, arXiv:2406.12534)은 더 넓은 검색 결정 스위트에서 FLARE를 벤치마킹했으며, UAR의 분류기 기반 접근 방식이 85.32%를 기록한 반면 FLARE는 다양한 시나리오에서 56.50%의 정확도만 달성했음을 발견했습니다. 캘리브레이션 문제는 예외적인 사례가 아니라 이 방법론이 근거하고 있는 핵심 가정에 관한 문제입니다.

또한 논문에서 충분히 다루지 않은 검색 세분성(granularity) 문제도 있습니다. 문장 단위 트리거는 합리적인 휴리스틱이지만, 어떤 사실은 절(clause) 경계에 걸쳐 있고 어떤 사실은 단일 엔터티 이름에 국한됩니다. 수치 토큰(달러 금액, 날짜)의 낮은 확률은 연결어의 낮은 확률과는 다르게 검색을 트리거해야 할 것입니다. 논문은 모든 낮은 신뢰도 토큰을 대칭적으로 취급합니다.

마지막으로 "불확실할 경우 다시 생성"하는 루프는 지연 시간(latency)을 유발합니다. 저자들은 이를 인정하지만 대화형 또는 실시간에 가까운 애플리케이션에서 중요한 지연 시간 예산과 비교하여 정량화하지는 않았습니다.

금융 AI에 중요한 이유

수년 치 장부를 요약하는 Beancount 에이전트는 모든 과거 항목을 미리 검색할 수 없습니다. 컨텍스트가 넘쳐나고 대부분은 당장의 답변과 무관하기 때문입니다. FLARE의 설계는 이 문제와 잘 맞습니다. 먼저 대조(reconciliation) 해설의 초안을 생성하고, 특정 거래처의 잔액 현황에 대한 신뢰도가 낮음을 감지하면 관련 거래만 검색한 다음 해당 문장을 다시 생성하는 식입니다. 이 패턴 자체는 타당합니다.

하지만 캘리브레이션 문제는 심각한 우려 사항입니다. 실제 프로덕션 환경의 금융 에이전트는 기본 완료 모델이 아니라 거의 예외 없이 지시어 튜닝된 채팅 모델(GPT-4, Claude, Gemini)을 사용합니다. 만약 이 모델들이 수치와 관련된 주장에서 과잉 확신을 보인다면(실제로 자주 그렇습니다), 검색이 반드시 필요한 시점에 검색을 건너뛰게 됩니다. 높은 신뢰도로 거래 날짜를 환각하면서도 이를 검증하기 위해 검색하지 않는 Beancount 기입(write-back) 에이전트는 쓸모가 없을 뿐만 아니라 위험합니다.

실질적인 교훈은 FLARE의 미래 예측형 쿼리 생성 방식을 사용하되, 토큰 확률에만 의존하지 않는 검색 트리거와 결합하는 것입니다. 명시적인 불확실성 마커(완곡한 표현, 라운드 넘버, 모델이 최근에 보지 못한 명명된 엔터티)가 신뢰도 신호를 보완할 수 있습니다. 또는 UAR의 접근 방식처럼 로짓(logits)보다 미세 조정에 강한 모델의 은닉 상태(hidden states)를 기반으로 경량 분류기를 학습시키는 방법이 있습니다.

함께 읽어볼 만한 글

IRCoT: "Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions" (arXiv:2212.10509) — 토큰 신뢰도가 아닌 CoT 단계와 검색을 결합합니다. 멀티홉 작업에서 FLARE와 직접 비교해 볼 가치가 있습니다.
Unified Active Retrieval (UAR, arXiv:2406.12534) — FLARE의 캘리브레이션 간극을 노출하고 네 가지 검색 시나리오에 걸쳐 분류기 기반의 검색 결정을 제안하는 직접적인 후속 연구입니다.
"Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home" (arXiv:2501.12835) — 토큰 확률 기반 트리거가 더 나은 캘리브레이션 기술로 복구될 수 있는지 재검토하는 2025년 논문입니다.

Share on Twitter Follow @beancount_io

FLARE: 능동적 검색 증강 생성(Active Retrieval Augmented Generation)

논문 내용

핵심 아이디어

유효한 점과 그렇지 않은 점

금융 AI에 중요한 이유

함께 읽어볼 만한 글

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 내용​

핵심 아이디어​

유효한 점과 그렇지 않은 점​

금융 AI에 중요한 이유​

함께 읽어볼 만한 글​

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 내용

핵심 아이디어

유효한 점과 그렇지 않은 점

금융 AI에 중요한 이유

함께 읽어볼 만한 글