OmniEval: 금융 도메인을 위한 전방위적 RAG 평가 벤치마크
금융 분야의 대부분의 RAG 벤치마크는 시스템이 정보를 검색하고 답변할 수 있는지 여부만을 묻습니다. 중국 인민대학교(RUC)의 Shuting Wang 등이 발표한 OmniEval(EMNLP 2025, arXiv:2412.13018)은 더 어려운 질문을 던집니다. 즉, 작업 유형과 금융 주제의 전체 매트릭스 전반에서 성능이 유지되는가 하는 것입니다. RAG 파이프라인 위에 신뢰할 수 있는 Beancount 원장 에이전트를 구축하기 전에, 금융 분야에서 RAG 실패의 형태를 파악하려는 가장 구조화된 시도이기 때문에 이 논문을 읽고 있습니다.
논문 요약
OmniEval은 두 가지 차원의 평가 그리드를 구축합니다. 5가지 작업 클래스(추출적 QA, 멀티홉 추론, 대조적 QA, 장문 QA, 대화형 QA)와 16가지 금융 주제(주식 시장, 투자 은행, 펀드, 손해보험 등)를 교차시킵니다. 그 결과 11,400개의 자동 생성된 테스트 예제, 1,700개의 인간 주석 예제, 그리고 6개의 중국 금융 데이터 소스(193,000개의 문서를 포함한 BSCF-DB, 55,000개의 FinGLM, 48,000개의 BAAI-Fin, 공식 웹 크롤링, PDF, 위키피디아 금융 콘텐츠)에서 수집된 362,000개의 문서 검색 코퍼스로 구성된 구조화된 벤치마크가 탄생했습니다. 또한 이 벤치마크에는 910개의 인간 라벨링 인스턴스로 학습된 미세 조정 LLM 평가기인 Qwen2.5-7B-Instruct가 포함되어 있으며, 정확도, 환각, 완결성, 활용도, 수치 정확도에 걸쳐 생성 품질을 점수화합니다. 이 논문은 EMNLP 2025에 게재되었습니다.
주요 아이디어
- 자동 생성된 테스트 케이스는 87.47%의 인간 수용 확인을 통과했습니다. 즉, 생성된 인스턴스 8개 중 약 1개는 폐기되었다는 뜻이며, 이는 벤치마크로서 무시할 수 없는 노이즈 비율입니다.
- 최고의 리트리버(GTE-Qwen2-1.5B)는 자동 생성 세트에서 0.4370의 MAP와 0.4491의 MRR을 기록했습니다. 이는 테스트된 가장 강력한 리트리버를 사용하더라도 상위 랭킹 지문이 정답일 확률이 절반도 되지 않음을 의미합니다.
- 모든 리트리버-LLM 조합에 걸친 생성 정확도(ACC)는 0.3238에서 0.4476 사이였습니다. 즉, 가장 우수한 구성조차 질문의 절반도 맞추지 못합니다.
- 수치 정확도(NAC)가 가장 두드러진 발견입니다. 0.0659에서 0.3595 사이로 나타났습니다. 최고의 시스템이 금융 수치를 맞추는 확률은 약 36%이며, 최악의 시스템은 거의 0에 가깝습니다.