FinRAGBench-V: 금융 도메인의 시각적 인용을 포함한 멀티모달 RAG
금융 AI는 그동안 텍스트 전용 RAG가 주도해 왔지만, 실제 금융 문서는 OCR이 온전히 포착할 수 없는 차트, 표, 그림으로 가득 차 있습니다. FinRAGBench-V(EMNLP 2025)는 금융 도메인에서 시각적 인용을 포함한 멀티모달 RAG를 평가하는 최초의 대규모 벤치마크이며, 그 결과는 상용 시스템이 아직 갈 길이 멀다는 점을 일깨워줍니다.
논문 내용
베이징 대학교의 Zhao, Jin, Li, Gao는 연구 보고서, 재무제표, 투자 설명서, 학술 논문, 잡지 및 뉴스 기사 등 실제 금융 문서로 구축된 이국어(Bilingual) 벤치마크인 FinRAGBench-V를 소개합니다. 검색 코퍼스는 상당한 규모로, 언어별로 약 1,100개의 문서에 걸쳐 중국어 60,780페이지와 영어 51,219페이지로 구성되어 있습니다. 또한 텍스트 추론, 차트 및 표 추출, 수치 계산, 시간 민감형 쿼리, 다중 페이지 추론 등 7가지 질문 범주에 걸친 1,394개의 인간 주석 QA 쌍이 포함됩니다. 데이터셋 외에도 이 논문의 핵심 기여는 RGenCite라는 베이스라인 시스템입니다. 이 시스템은 각 주장을 뒷받침하는 특정 문서 영역을 표시하는 바운딩 박스 좌표 형태의 픽셀 수준 시각적 인용과 함께 답변을 생성합니다.
주요 개념
- 멀티모달 검색이 텍스트 전용 검색을 압도적인 차이로 제압: 페이지 이미지 임베딩을 기반으로 구축된 시각-언어 검색 모델인 ColQwen2는 Recall@10에서 90.13%(중국어) 및 85.86%(영어)를 달성했습니다. 반면 가장 뛰어난 텍스트 기반 검색 모델인 BM25와 BGE-M3는 약 42.71%에 머물렀습니다. 이 격차는 단순한 오차가 아닙니다.
- 최첨단 모델에서도 생성 정확도가 낮음: 영어의 경우 GPT-4o는 43.41%의 정확도(ROUGE 24.66)를 기록했고, 중국어의 경우 o4-mini는 58.13%(ROUGE 38.55)를 기록했습니다. 이들은 강력한 검색 기능을 갖춘 최상위 상용 모델들입니다.
- 페이지 수준 인용은 작동하지만, 블록 수준은 그렇지 않음: 최고 모델들의 페이지 수준 재현율은 75
93%에 달합니다. 하지만 특정 표 셀이나 차트 영역이 주장의 근거임을 파악하는 블록 수준 재현율은 2061%로 급감합니다. 이는 감사 가능성(Auditability) 측면에서 핵심적인 공백입니다. - 수치 추론 및 다중 페이지 추론이 모델의 성능을 가장 먼저 저하시킴: 여러 페이지나 시간 범위에 걸친 계산 이 필요한 질문에서 모든 테스트 시스템의 정확도가 가장 가파르게 떨어졌습니다.
- 상용 모델이 오픈 소스 대안보다 실질적으로 우수한 성능을 보임: 여기서는 대부분의 NLP 벤치마크보다 폐쇄형 API와 오픈 소스 간의 격차가 더 크게 나타나며, 이는 오픈 모델들에게 시각적 금융 추론이 여전히 해결되지 않은 과제임을 시사합니다.
- 인용에 대한 자동 평가는 불완전함: 이미지 크로핑 기반의 인용 평가기는 인간의 판단과 Pearson r = 0.68의 상관관계를 보였는데, 이는 합리적이지만 샘플링 없이 완전히 신뢰하기에는 부족한 수준입니다.
유효한 점과 그렇지 않은 점
검색 결과는 이 논문에서 가장 신뢰할 수 있는 부분입니다. 60,000페이지 이상의 규모에서 멀티모달 검색 모델과 텍스트 전용 검색 모델 사이에 거의 50% 포인트의 격차가 난다는 것은 간과하기 힘든 결과입니다. 인덱싱 전에 금융 문서를 OCR로 변환하면 숫자가 어느 열에 있는지, 그림 캡션이 표의 해석을 어떻게 바꾸는지와 같은 구조적 레이아웃 신호가 파괴되는데, 이러한 정보가 검색에 매우 중요하다는 것이 입증되었습니다.
생성 관련 수치는 정직하지만 단독으로 해석하기는 어렵습니다. 저자들은 정확도 격차 중 어느 정도가 검색 오류에 의한 것이고 어느 정도가 생성 실패에 의한 것인지 분리하여 분석하지 않았습니다. Recall@10이 영어에서 이미 85.86%라는 점을 감안하면, 상당 부분의 실패는 검색보다는 생성 측면에서 발생했을 것입니다. 이러한 세부 분석이 있었다면 병목 현상이 멀티모달 추론 때문인지, 아니면 MLLM이 금융 언어를 처리하는 방식의 더 근본적인 문제인지 명확해졌을 것입니다.
1,394개의 QA 쌍으로 구성된 평가 세트는 벤치마크 범위에 비해 적은 편입니다. 7가지 범주와 2개 언어로 나눌 경우, 일부 섹션은 예시가 200개 미만입니다. 범주별 결과의 통계적 유의성은 암시적으로만 남아 있습니다. 벤치마크 논문에서 흔히 있는 일이지만, 이는 유리한 비교 데이터를 구성하기 쉬울 수도 있음을 의미합니다.
인용 평가 프로토콜은 흥미로운 기여이지만, 인간 평가와의 상관관계(Pearson r = 0.68)는 자동 평가를 블록 수준 근거 탐색의 절대적 기준으로 삼기에는 충분히 강력하지 않습니다. 저자들도 이를 인정하고 있으며, 더 나은 인용 지표에 대한 향후 연구의 필요성을 명시적으로 언급했습니다.
금융 AI에 이것이 중요한 이유
Beancount는 평문(plain-text) 원장 파일에서 작동하므로 과거 거래를 조회할 때 텍스트 전용 RAG를 사용하는 것이 타당해 보일 수 있습니다. 하지만 더 넓은 범위의 회계 작업에는 은행 거래 내역 PDF, 스캔된 송장, 영수증 이미지, 표와 차트가 포함된 연례 보고서 등 평문이 아닌 문서들이 반드시 포함됩니다. Beancount 에이전트가 원장 항목을 소스 문서와 대조하여 조정(Reconciliation)해야 하는 순간—즉, 특정 비용이 보관된 송장과 일치하는지 확인하는 작업—이 바로 FinRAGBench-V가 벤치마킹하는 작업입니다.
블록 수준 인용 결과는 이 사용 사례에서 가장 중요합니다. 에이전트가 PDF의 특정 라인 항목을 가리켜 원장 기입을 정당화해야 하는데, 현재 최고 수준의 시스템도 블록 수준 재현율이 20~61%에 불과하다면 이는 감사에 바로 사용할 수 있는 수준이 아닙니다. 스캔된 소스 문서를 다루는 모든 Beancount 파이프라인은 이 수치가 실질적으로 개선될 때까지 인간의 검토(Human-in-the-loop)가 필요합니다.
검색 방식의 격차 또한 문서 수집 단계에서 순수 텍스트 파이프라인을 지양해야 함을 강력하게 시사합니다. 영수증 이미지에는 금액 필드, 업체명, 라인 항목 위치와 같은 레이아웃 정보가 포함되어 있으며, OCR은 이를 파괴합니다. 이러한 레이아웃 정보는 항목 합계와 세액을 구분하는 결정적인 요소이며, FinRAGBench-V는 멀티모달 검색 모델이 텍스트 검색 모델은 할 수 없는 방식으로 이를 활용함을 보여줍니다.
더 읽어볼 거리
- ColPali: Efficient Document Retrieval with Vision Language Models — FinRAGBench-V의 최고 검색 모델이 기반으로 삼은 시각적 페이지 임베딩 방식을 정립한 ColQwen2의 전신 [arXiv:2407.01449, ECCV 2024]
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — 여러 페이지와 문서에 걸친 단일 및 다중 홉(multi-hop) 시각적 추론을 처리하는 유연한 프레임워크로 다중 문서 시 각적 QA를 해결함 [arXiv:2411.04952]
- Benchmarking Temporal-Aware Multi-Modal RAG in Finance — 금융 멀티모달 RAG의 시간 민감성을 평가하는 2025년의 동반 벤치마크로, FinRAGBench-V의 시간 민감형 질문 범주를 직접적으로 보완함 [arXiv:2503.05185]
