FinRAGBench-V(EMNLP 2025)는 금융 분야에서 시각적 인용을 포함한 멀티모달 RAG를 위한 최초의 대규모 벤치마크로, 112,000페이지 이상의 문서와 1,394개의 사람이 주석을 단 질의응답 쌍을 포함합니다. 상위 모델들은 블록 수준 인용 재현율이 20~61%에 불과하며, 멀티모달 검색은 텍스트 전용 검색보다 거의 50% 포인트 더 높은 성능을 보입니다.
Fin-RATE는 2,472개의 SEC 공시에서 추출한 7,500개의 전문가 큐레이션 QA 쌍을 통해 17개의 LLM을 벤치마킹하여, 시계열 추적 시 정확도가 18.60% 급락하고 금융 특화 모델 인 Fin-R1의 경우 기업 간 작업에서 54포인트 하락하는 등 한계를 드러냈습니다. 또한 검색(retrieval) 파이프라인이 백본 모델보다 더 큰 병목 현상인 것으로 나타났습니다.
FinDER는 S&P 500 10-K 공시 자료를 대상으로 5,703개의 실제 헤지펀드 분석가 쿼리를 사용하여 RAG를 벤치마킹합니다. E5-Mistral은 단 25.95%의 컨텍스트 재현율을 기록했으며, 약어가 많은 쿼리는 정밀도를 8.2포인트 떨어뜨렸습니다. 이는 더 나은 임베딩보다 쿼리 정규화가 금융 AI 파이프라인의 최우선 과제임을 시사합니다.
DocFinQA는 FinQA의 선별된 700단어 구절을 123,000단어 분량의 전체 SEC 공시 자료로 대체하여, 컨텍스트를 175배 확장했을 때 긴 문서에 대한 GPT-4의 정확도가 거의 절반으로 떨어짐을 보여줍니다. 검색 파이프라인은 HR@3 기준 45%의 확률로 올바른 청크를 찾지 못하며, 롱 컨텍스트 모델 또한 이를 대체하지 못합니다.
FinAuditing은 1,102개의 실제 SEC XBRL 공시 사례를 대상으로 13개의 LLM을 제로샷(zero-shot)으로 테스트했습니다. 최고 점수는 재무 수학 검증에서 13.86%, 개념 검색에서 12.42%로 나타났으며, 이는 외부 도구 없이 AI 회계 도구가 자동화할 수 있는 신뢰 범위의 한계를 직접적으로 보여줍니다.
TAT-LLM은 FinQA에서 64.60%의 EM을 달성하여 GPT-4의 63.91%를 능가했으며, 추론을 결정론적인 추출-추론-실행 단계로 분해하여 산술 오류를 제거함으로써 재무 표-텍스트 QA 벤치마크에서 LoRA로 LLaMA 2 7B를 미세 조정했습니다.
MultiHiertt (ACL 2022)는 실제 재무 보고서에서 추출한 10,440개의 QA 쌍을 소개하며, 각 보고서는 평균 3.89개의 계층적 테이블을 포함합니다. 최신 모델의 F1 점수는 38%인 반면 인간은 87%를 기록했으며, 교차 테이블 질문에서는 15점의 점수 하락이 발생했습니다. 이는 금융 AI가 해결해야 할 정보 검색 격차를 수치화한 것입니다.
ConvFinQA (EMNLP 2022)는 FinQA를 S&P 500 수익 보고서에 대한 다회차 대화로 확장하여, 가장 우수한 미세 조정 모델이 68.9%의 실행 정확도를 달성한 반면 인간 전문가는 89.4%를 기록했음을 발견했습니다. 특히 모델이 서로 다른 금융 주제 간에 수치적 맥락을 유지해야 하는 하이브리드 다측면 대화에서는 정확도가 52.4%까지 떨어졌습니다.
TAT-QA는 하이브리드 표-텍스트 금융 보고서 맥락에 대한 16,552개의 질문으로 구성된 벤치마크로, 금융 AI의 핵심 병목 현상이 산술 능력이 아닌 근거 도출(evidence grounding)임을 보여주었습니다. 2024년까지 미세 조정된 7B LLM은 F1 점수 83%에 도달하며 인간의 한계치인 91%와의 격차를 대부분 좁혔습니다.
FinQA(EMNLP 2021)는 다단계 산술 프로그램이 필요한 S&P 500 실적 보고서에서 8,281개의 질의응답 쌍을 구축했습니다. 발표 당시 신경망 모델은 61%를 기록한 반면 인간 전문가는 91%를 기록했습니다. 3단계 이상의 프로그램에서는 정확도가 22%로 급락합니다. 도메인 상수, 교차 모달리티 근거 제시, 체인 길이 등 실패 모드는 오늘날 Beancount 에이전트가 직면한 과제와 직접적으로 연결됩니다.