본문으로 건너뛰기

OmniEval: 금융 도메인을 위한 전방위적 RAG 평가 벤치마크

· 약 5분
Mike Thrift
Mike Thrift
Marketing Manager

금융 분야의 대부분의 RAG 벤치마크는 시스템이 정보를 검색하고 답변할 수 있는지 여부만을 묻습니다. 중국 인민대학교(RUC)의 Shuting Wang 등이 발표한 OmniEval(EMNLP 2025, arXiv:2412.13018)은 더 어려운 질문을 던집니다. 즉, 작업 유형과 금융 주제의 전체 매트릭스 전반에서 성능이 유지되는가 하는 것입니다. RAG 파이프라인 위에 신뢰할 수 있는 Beancount 원장 에이전트를 구축하기 전에, 금융 분야에서 RAG 실패의 형태를 파악하려는 가장 구조화된 시도이기 때문에 이 논문을 읽고 있습니다.

논문 요약

2026-07-04-omnieval-omnidirectional-automatic-rag-evaluation-financial-domain

OmniEval은 두 가지 차원의 평가 그리드를 구축합니다. 5가지 작업 클래스(추출적 QA, 멀티홉 추론, 대조적 QA, 장문 QA, 대화형 QA)와 16가지 금융 주제(주식 시장, 투자 은행, 펀드, 손해보험 등)를 교차시킵니다. 그 결과 11,400개의 자동 생성된 테스트 예제, 1,700개의 인간 주석 예제, 그리고 6개의 중국 금융 데이터 소스(193,000개의 문서를 포함한 BSCF-DB, 55,000개의 FinGLM, 48,000개의 BAAI-Fin, 공식 웹 크롤링, PDF, 위키피디아 금융 콘텐츠)에서 수집된 362,000개의 문서 검색 코퍼스로 구성된 구조화된 벤치마크가 탄생했습니다. 또한 이 벤치마크에는 910개의 인간 라벨링 인스턴스로 학습된 미세 조정 LLM 평가기인 Qwen2.5-7B-Instruct가 포함되어 있으며, 정확도, 환각, 완결성, 활용도, 수치 정확도에 걸쳐 생성 품질을 점수화합니다. 이 논문은 EMNLP 2025에 게재되었습니다.

주요 아이디어

  • 자동 생성된 테스트 케이스는 87.47%의 인간 수용 확인을 통과했습니다. 즉, 생성된 인스턴스 8개 중 약 1개는 폐기되었다는 뜻이며, 이는 벤치마크로서 무시할 수 없는 노이즈 비율입니다.
  • 최고의 리트리버(GTE-Qwen2-1.5B)는 자동 생성 세트에서 0.4370의 MAP와 0.4491의 MRR을 기록했습니다. 이는 테스트된 가장 강력한 리트리버를 사용하더라도 상위 랭킹 지문이 정답일 확률이 절반도 되지 않음을 의미합니다.
  • 모든 리트리버-LLM 조합에 걸친 생성 정확도(ACC)는 0.3238에서 0.4476 사이였습니다. 즉, 가장 우수한 구성조차 질문의 절반도 맞추지 못합니다.
  • 수치 정확도(NAC)가 가장 두드러진 발견입니다. 0.0659에서 0.3595 사이로 나타났습니다. 최고의 시스템이 금융 수치를 맞추는 확률은 약 36%이며, 최악의 시스템은 거의 0에 가깝습니다.
  • 미세 조정된 평가기는 인간 주석과 74.4%의 일치율(κ = 0.6486)을 보였으며, 이는 55-71% 수준인 프롬프트 기반 베이스라인을 크게 상회하지만, 여전히 평가 4개 중 1개는 인간의 판단과 일치하지 않음을 의미합니다.
  • 멀티홉 추론과 대화형 QA가 일관되게 가장 어려운 작업 클래스로 나타났습니다.

유효한 부분과 그렇지 않은 부분

매트릭스 평가 설계는 정말 유용합니다. 이전의 금융 벤치마크(FinanceBench, FinQA, DocFinQA)는 평가를 주로 답변 정확도라는 단일 축으로 취급하여 RAG가 실패하는 방식의 구조적 변형을 놓쳤습니다. 시스템이 추출적 QA에서는 점수가 높지만 멀티홉 추론에서는 낮다는 것을 아는 것은 실행 가능한 정보입니다. 단순히 종합 평균 점수를 아는 것과는 다릅니다. OmniEval 그리드는 이러한 변동성을 가시화하며, 주제별로 성능이 일관되지 않다는 발견은 실무자가 배포 전에 반드시 확인해야 할 결과입니다.

하지만 솔직히 짚고 넘어가야 할 한계도 있습니다. 코퍼스가 압도적으로 중국어 중심입니다. 6개 데이터 소스 중 5개가 중국 금융 데이터(BSCF, FinGLM, BAAI-Fin)이고, 6번째는 중국어 위키피디아입니다. 논문은 언어별 결과를 보고하지 않고 집계된 수치만 보고합니다. 이로 인해 논문의 모든 점수는 일반적인 금융 RAG에 대한 주장이라기보다, 중국어 특화 리트리버 및 LLM(GTE-Qwen2-1.5B, Qwen2.5-72B, Yi1.5-34B)을 사용한 중국어 텍스트 기반 금융 RAG에 국한된 결과로 보일 여지가 있습니다. 영어 금융 사용자는 이 수치를 직접 활용하기 어렵습니다.

LLM 평가기는 910개의 라벨링된 인스턴스로 학습되었습니다. 이는 충분하지 않습니다. κ = 0.6486에서 74.4%의 인간 일치율은 시작점으로서는 방어 가능하지만, 평가 프레임워크 자체에 상당한 노이즈가 유입됨을 의미합니다. 만약 벤치마크가 단 몇 퍼센트 포인트 차이로 시스템을 비교하는 데 사용된다면, 평가기의 분산이 실제 신호를 압도할 것입니다.

GPT-4가 테스트 질문을 생성하고 인간이 87.47%의 수용률로 필터링하는 자동 생성 파이프라인은 논문에서 다루지 않은 오염(contamination) 문제를 야기합니다. GPT-4가 생성한 질문은 이전 모델이나 소규모 모델에 체계적으로 불리한 방식으로 GPT-4급 모델의 강점에 맞춰질 수 있습니다.

이것이 금융 AI에 중요한 이유

제가 계속 주목하게 되는 수치는 수치 정확도 점수입니다: 0.0659–0.3595. 벤치마크 평가에서 최고의 RAG 시스템조차 금융 수치를 36%만 맞춘다면, 나이브한 RAG 파이프라인 위에 구축된 Beancount 재기록(write-back) 에이전트는 원장 데이터를 오염시킬 것입니다. Beancount 형식은 엄격합니다. 잘못된 금액, 날짜 또는 계정 이름은 파싱 오류를 일으키거나, 회계연도 전체에 전파될 수 있는 조용한 회계 오류를 만듭니다. 이 벤치마크는 RAG 검색과 LLM 생성이 검증 계층 없이는 아직 직접적인 원장 재기록을 수행하기에 충분히 신뢰할 수 없다는 구체적인 증거를 제시합니다.

또한 작업 클래스 구조는 Beancount 사용 사례와 깔끔하게 매칭됩니다. 추출적 QA는 단순 잔액 조회에 해당합니다. 멀티홉 추론은 "1분기부터 3분기까지 세후 순이익은 얼마인가?"와 같은 질문에 해당합니다. 대화형 QA는 사용자가 세션 전체에 걸쳐 정산 요청을 반복적으로 구체화하는 상황에 해당합니다. 멀티홉 및 대화형 작업이 가장 어렵다는 OmniEval의 발견은 Beancount 에이전트 설계에 있어 좋지 않은 소식입니다. 쉬운 케이스는 어느 정도 작동하지만, 실제적인 케이스에서 시스템이 무너진다는 뜻이기 때문입니다.

다음 읽을거리

  • ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — OmniEval의 평가기 미세 조정 방식과 가장 유사한 일반 도메인 프레임워크입니다. ARES 방법론과 OmniEval을 비교하면 LLM 평가기 설계 선택이 원칙적인지 아니면 임시방편인지 명확히 알 수 있습니다.
  • RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — RAG 평가를 위한 자동 시나리오 생성 프레임워크입니다. OmniEval이 사용하는 자동 생성 방법론을 확장하며 오염 문제를 해결할 수도 있습니다.
  • FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — 시각적 인용이 포함된 멀티모달 금융 문서(표, 차트)로 RAG 평가를 확장합니다. Beancount 사용자가 일반 텍스트 원장과 함께 영수증 이미지 및 PDF 명세서를 점점 더 많이 사용하는 추세에 부합합니다.