본문으로 건너뛰기

FinDER: 실제 분석가 쿼리를 통해 드러난 금융 RAG의 74% 재현율 격차

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

FinDER(arXiv:2504.15800)는 단순하지만 간과되기 쉬운 관찰 결과를 바탕으로 구축된 검색 벤치마크입니다. 실제 금융 전문가들이 입력하는 쿼리는 학술적 벤치마크에 등장하는 정제된 질문과는 전혀 다르다는 점입니다. 제가 이 논문을 읽는 이유는 금융 AI의 검색 격차와 DocFinQA 및 FinanceBench가 드러내기 시작한 실제 현장의 현실성 문제라는 두 가지 맥락이 맞닿아 있기 때문입니다.

논문 소개

2026-06-28-finder-financial-dataset-rag-evaluation

최찬열, 권지훈 및 금융 AI 기업의 동료들은 실제 헤지펀드 분석가 Q&A 서비스에서 추출한 5,703개의 전문가 주석 쿼리-증거-답변 삼중항 데이터셋을 제시합니다. 문서는 SEC EDGAR에서 수집한 S&P 500 기업 490곳의 10-K 공시 자료입니다. FinDER가 이전 벤치마크와 구별되는 점은 쿼리 측면입니다. 쿼리의 89.86%가 3개 이상의 도메인 특화 약어나 두문자어를 포함하고 있습니다. "2023 회계연도 X 회사의 총 매출은 얼마인가요?"라고 묻는 대신, 실제 분석가는 "GOOGL 10-K FY23 revs breakdown by segment(부문별 매출 내역)"와 같이 입력할 수 있습니다. 이 데이터셋은 ICLR 2025 금융 AI 발전 워크숍(Workshop on Advances in Financial AI)에서 발표되었으며, 이후 ICAIF 2025에 게재되었습니다.

핵심 아이디어

  • 전반적으로 검색 재현율이 충격적일 정도로 낮습니다: E5-Mistral(최고 성능의 밀집 검색기)은 전체적으로 25.95%의 컨텍스트 재현율만을 기록했으며, BM25는 11.68%에 그쳤습니다. 회계와 가장 직접적으로 관련된 "Financials(재무)" 카테고리가 가장 어려웠으며, 각각 15.84%와 6.42%를 기록했습니다.
  • 쿼리의 모호성만으로도 정밀도가 8.2포인트 하락합니다: 저자들이 500개의 쿼리에 대해 E5-Mistral을 테스트한 결과, 잘 구성된 패러프레이즈(정밀도 33.9)와 실제 약어 쿼리(정밀도 25.7)를 비교했습니다. 이 격차는 문서의 복잡성이 아니라 전적으로 약어/두문자어 처리 능력에서 기인합니다.
  • 검색 품질이 생성의 지배적인 병목 현상입니다: 컨텍스트가 없는 LLM은 거의 0점에 가까운 점수(910% 정답률)를 기록했습니다. 상위 10개의 검색된 구절을 제공하면 2934%로 올라가며, 완벽한 정답 컨텍스트(oracle context)를 제공하면 60~68%로 급증합니다. 실제 상황과 오라클 조건 사이의 35포인트 격차는 오픈 소스 모델과 프런티어 모델 간의 격차보다 더 큽니다.
  • 구성적 산술(Compositional arithmetic)은 우수한 검색 성능에도 불구하고 한계를 보입니다: 다단계 계산 작업(구성적 쿼리)은 Claude-3.7-Sonnet, GPT-o1, DeepSeek-R1-Distill, Qwen-QWQ 등 네 가지 모델 모두에서 상위 10개 검색 구절을 제공하더라도 약 20%의 정확도에 불과했습니다. GPT-o1은 곱셈 작업에서 42.90%로 앞서 나갔지만, 나눗셈에서는 27.78%로 떨어졌습니다.
  • LLM 재순위화(reranking)는 작지만 꾸준한 개선을 가져옵니다: 모델이 답변하기 전에 E5-Mistral의 상위 10개 결과에 대해 재순위화를 수행하도록 했을 때, Claude-3.7-Sonnet은 63.05, GPT-o1은 62.90의 F1 점수를 기록했습니다. Deepseek-R1-Distill은 다른 분야의 구조적 추론에서 강점을 보였음에도 불구하고 60.01로 뒤처졌습니다.
  • 카테고리별 난이도가 불균형합니다: 리스크(Risk) 관련 쿼리는 검색이 가장 쉬웠으며(E5-Mistral 재현율 33.07), 재무(Financials)는 여전히 가장 어려웠습니다(15.84). 이는 쿼리 구조와 상관관계가 있는데, 리스크 공시는 자연어 산문 형태를 띠는 반면 재무 표는 밀도 높은 숫자 표기법을 사용하기 때문입니다.

유효한 점과 그렇지 않은 점

핵심적인 기여는 확실합니다. 현직 분석가들의 실제 쿼리 분포를 다루고 있으며, 약어 문제가 실질적이라는 점을 보여주었습니다. 위키피디아나 FinQA 스타일의 크라우드소싱으로 구축된 벤치마크는 이 점을 놓치고 있습니다. '컨텍스트 없음', '실제 검색', '오라클 컨텍스트'라는 3단계 평가 구조는 올바른 설계입니다. 이는 검색 품질과 추론 품질을 깔끔하게 분리하며, 질적인 질문에서 완벽한 컨텍스트가 주어져도 여전히 3234%의 실패율이 발생하는 잔여 생성 격차를 보여줍니다.

논문의 가장 취약한 점은 재현성입니다. 출판 당시 데이터셋이 공개되지 않았으며, 저자들은 "추후 공개할 계획"이라고만 밝혔습니다. 평가 표준을 제시하는 워크숍 논문으로서는 중대한 문제입니다. 공개되지 않은 벤치마크는 벤치마크가 아니라 사례 연구일 뿐입니다. 이후 ICAIF 2025에 등장했으므로 출시되었을 가능성도 있지만, arXiv 버전에서는 이를 확인할 수 없습니다.

또한 검색 평가는 네 가지 단일 단계 모델(BM25, GTE, mE5, E5-Mistral)만을 사용했습니다. 하이브리드 검색, 쿼리 확장, HyDE, 약어 문제를 구체적으로 겨냥한 재작성(rewriting) 단계도 없었습니다. 저자들이 약어 격차를 정확히 규정했다는 점을 고려하면, 검색 전 쿼리 확장("GOOGL" → "Alphabet Inc.")과 같은 명백한 해결책을 테스트하지 않은 것은 의외입니다. 해당 실험은 누락되었습니다.

생성 결과는 더 자세히 살펴볼 가치가 있습니다. 컨텍스트가 없을 때의 910% 성능은 유용한 하한선이 아니라 사실상 0에 가깝지만, 60~68%의 오라클 상한선은 보기보다 더 많은 정보를 줍니다. 올바른 구절이 주어져도 최고 성능의 모델들이 정성적 질문의 약 1/3, 구성적 산술의 4/5에서 실패한다는 것을 의미합니다. 이 상한선은 중요합니다. 즉, 검색만으로는 문제를 해결할 수 없음을 뜻합니다.

금융 AI에서 이것이 중요한 이유

FinDER의 쿼리 분포는 Beancount 사용자가 원장 에이전트와 실제로 상호작용하는 방식과 잘 맞아떨어집니다. 수년간 계정을 관리해 온 사용자는 "아마존 신용카드 3분기 환급액이 얼마인가요?"라고 묻기보다 "AMZN card Q3 reimb?"와 같이 축약된 문맥적 쿼리를 입력할 것입니다. 표준 임베딩 모델은 정제된 자연어 텍스트로 훈련되었기 때문에 올바른 항목을 검색하는 데 실패할 것입니다. 정제된 쿼리에서 실제 쿼리로 넘어갈 때 발생하는 8.2포인트의 정밀도 하락은 개인 원장 도메인에서는 오히려 보수적인 수치일 수 있습니다. 개인적인 약어(예: "property management fee" 대신 "prop mgmt fee")는 SEC 표준 약어보다 훈련 데이터에서 더 멀리 떨어져 있기 때문입니다.

E5-Mistral의 25.95% 컨텍스트 재현율 상한선은 강제적인 제약 조건이 됩니다. 모든 Beancount RAG 파이프라인은 상당 부분의 증거를 놓칠 가능성에 대비해야 합니다. 한 가지 시사점은 단일 패스에서 F1 점수를 올리는 것보다 높은 재현율을 위한 재검색(다중 패스, 다양한 쿼리 구성)이 더 중요하다는 것입니다. 또 다른 시사점은 검색 전 사용자 약어를 표준 계정 이름으로 매핑하는 쿼리 정규화가 임베딩 모델에 맡겨둘 것이 아니라 명시적인 전처리 단계가 되어야 한다는 점입니다.

오라클 컨텍스트에서도 20%에 불과한 구성적 산술 정확도는 별도의 신호를 보냅니다. Beancount 계산 작업의 경우 생성 병목 현상은 검색이 아니라 추론에 있습니다. 숫자 관련 작업에서는 검색 성능이 아무리 좋아지더라도 PAL 방식의 오프로딩(자유 형식 텍스트 계산 대신 Python 산술 코드를 생성하는 방식)이 여전히 올바른 해답입니다.

더 읽어볼 거리

  • Fin-RATE (arXiv:2602.07294) — SEC 공시 자료의 다기간 추적을 위한 동반 벤치마크입니다. 시계열 작업에서 정확도가 18.60% 하락하며, 이는 Beancount의 다년 원장 문제와 직결됩니다.
  • IRCoT (arXiv:2212.10509, ACL 2023) — 검색과 생각의 사슬(CoT) 추론을 결합하는 방식입니다. 다중 패스 검색 구조는 FinDER가 노출한 낮은 단일 패스 재현율 문제를 직접적으로 해결합니다.
  • LLM을 활용한 도메인 특화 검색용 쿼리 확장 — 아직 이 부분을 완벽하게 다루는 단일 벤치마크 논문은 없지만, FinDER의 약어 격차는 이를 최우선 연구 과제로 만듭니다. "HyDE financial domain" 및 "query expansion SEC filings 2025"를 검색하는 것이 좋은 시작점이 될 것입니다.