FinMaster 벤치마크: LLM이 금융 문해력에서 96%를 기록하면서도 재무제표 생성에서는 3%에 그치는 이유
FinMaster 논문은 ReAct 논문을 읽은 직후 제 읽기 목록에 올랐습니다. ReAct가 에이전트가 행동할 타이밍을 결정하는 방식에 관한 것이라면, FinMaster는 더 어려운 질문을 던집니다. 바로 현재 최고의 LLM들이 이러한 에이전트가 수행해야 하는 실제 회계 워크플로우를 얼마나 잘 처리하느냐는 것입니다. 2025년 5월에 제출된 이 논문은 금융 문해력, 회계, 감사, 컨설팅을 포함하는 전체 파이프라인을 하나의 일관된 평가 프레임워크 내에서 다루는 제가 본 최초의 벤치마크입니다.
논문 소개
Jiang 등은 금융 워크플로우에서 LLM을 평가하기 위한 세 부분으로 구성된 벤치마크인 FinMaster(arXiv:2505.13533)를 소개합니다. 첫 번째 구성 요소인 FinSim은 다섯 가지 유형의 기업을 시뮬레이션하고 실제 데이터 프라이버시 문제 없이 테스트 시나리오를 채우기 위해 올바른 거래와 의도적으로 오류를 포함시킨 원장 거래를 모두 생성하는 합성 데이터 생성기입니다. 두 번째인 FinSuite는 다양한 난이도의 금융 문해력, 회계, 감사 및 컨설팅을 포괄하는 183개의 작업을 묶은 것입니다. 세 번째인 FinEval은 통합된 점수 인터페이스를 제공합니다. 저자들은 FinMaster가 무한하고 프라이버시가 보장되는 데이터 생성 기능을 통해 전체 금융 파이프라인을 다루는 최초의 벤치마크라고 주장하며, 이는 FinBen이나 FinanceBench와 같은 기존의 정적 벤치마크와 비교할 때 타당한 주장입니다.
핵심 아이디어
- 복잡성에 따른 성능 급락: 모델들은 금융 문해력(재무상태표, 손익계산서 읽기)에서 평균 약 96%의 점수를 기록하지만, 기초 회계 계산에서는 40~60%, 다단계 회계 작업에서는 20% 미만, 그리고 재무제표 생성에서는 단 3%로 떨어집니다. 문해력과 계산 능력은 동일한 기술이 아닙니다.
- 심각한 오류 전파: 컨설팅 작업에서 단일 지표 계산은 평균 58%의 정확도를 보였으나, 이러한 계산을 연결하는 다중 지표 시나리오에서는 37%로 떨어졌습니다. 이는 사소한 오류가 누적되어 21점이나 하락한 결과입니다.
- 상위권의 치열한 경쟁: o3-mini(평균 0.73), Claude-3.7-Sonnet(0.72), DeepSeek-V3-2503(0.70)이 근소한 차이로 밀집되어 있어, 벤치마크가 변별력이 있으면서도 아직 한계에 도달하지 않았음을 시사합니다.
- 회계는 가장 어려운 영역: 평가된 7개 모델 전체에서 회계 점수는 0.04에서 0.35 사이에 불과했으며, 이는 다른 어떤 카테고리보다 훨씬 낮은 수준입니다. 제표 생성 점수가 3%라는 것은 LLM이 아직 거래 분개장을 일관된 재무제표로 안정적으로 합성할 수 없음을 의미합니다.
- 추론 모델의 미미한 도움: o3-mini가 전체적으로 앞서고 있지만 압도적이지는 않습니다. 생각의 사슬(Chain-of-thought) 방식의 추론이 도움이 되긴 하지만, 문해력과 제표 생성 사이의 93점 차이를 메우지는 못합니다.
- FinSim을 통한 대규모 스트레스 테스트: 이전 벤치마크는 시간이 지남에 따라 데이터 오염에 취약한 정적이고 고정된 데이터셋을 사용했습니다. FinMaster는 필요에 따라 새로운 시나리오를 생성할 수 있으며, 이는 모델이 일반화하는지 아니면 단순히 암기하는지 연구하는 데 중요합니다.
유효한 점과 한계점
다단계 금융 추론 능력이 급격히 저하된다는 핵심 결과는 신뢰할 수 있으며 LOG-001(FinBen) 및 LOG-002(Toolformer)의 패턴과도 일치합니다. 저는 오류 전파 발견에 동의합니다. 이는 산술 체인에서 발생하는 현상과 구조적으로 유사하기 때문입니다. FinSim 생성기는 진정한 방법론적 기여입니다. 신선한 시나리오를 생성할 수 있 는 벤치마크는 정적 금융 데이터셋을 괴롭히는 암기 문제에 저항력을 갖습니다.
반면 확신이 서지 않는 부분도 있습니다. 전체적인 범위를 포괄한다고 주장하는 벤치마크치고 183개의 작업은 부족해 보입니다. 35개의 감사 작업으로는 수백 개의 실제 오류 유형이 존재하는 광범위한 금융 감사 도메인을 특징짓기 어렵습니다. 이 논문은 전체 도메인을 12가지 기본 오류 유형으로 축소했는데, 이는 실제 감사 결과의 이질성을 가릴 위험이 있습니다.
또한 단일 집계 순위표 점수는 도메인 간의 중요한 패턴을 숨깁니다. 감사와 컨설팅은 모델별로 매우 다른 프로필을 보여주는데, 이를 평균화하면 인용하기는 쉽지만 실행에 옮기기는 어려운 수치가 됩니다.
합성 데이터의 한계는 양날의 검입니다. FinSim은 깨끗하고 잘 구조화된 원장 데이터를 생성합니다. 실제 회계 시스템에는 수십 년간의 레거시 인코딩 방식, 통화 반올림 오차, 수시 조정 사항 등이 포함되어 있으며 이는 시뮬레이터가 포착하기 어렵습니다. 합성 제표 생성에서 3%라는 점수는 암담합니다. 실제 기업의 지저분한 장부에서 동일한 측정을 수행한다면 결과는 아마 더 처참할 것입니다. 또한 이 논문은 텍스트 전용입니다. 저자들도 멀티모달의 공백을 인정하지만 이를 측정하지는 않았습니다. 대부분의 회계 업무는 사실 스캔된 PDF와 스프레드시트에서 이루어집니다.
이것이 금융 AI에 중요한 이유
이 논문은 Bean Labs의 아젠다와 관련하여 FinBen 이후 제가 읽은 가장 직접적인 연관성이 있는 논문입니다. Beancount 사용 사례는 본질적으로 FinMaster가 평가하는 것(거래 수준 회계, 다단계 계산, 보고서 생성)의 하위 집합입니다. 재무제표 생성에서 3%라는 수치는 경종을 울립니다. 이는 잘 설계된 ReAct 에이전트 구조를 갖추더라도, 특화된 미세 조정(Fine-tuning)이나 검색 증강(Retrieval) 구조 없이는 거래 분개장에서 올바른 Beancount 재무상태표를 합성하는 모델의 능력을 신뢰할 수 없음을 말해줍니다.
오류 전파 결과는 라이트백(write-back) 안전성과 직결됩니다. 컨설팅 작업 체인에서 첫 번째 단계에서 두 번째 단계로 넘어갈 때 정확도가 21점 하락한다면, 3단계 대조(reconciliation)를 수행하는 자율 Beancount 에이전트는 각 단계마다 오류를 복리로 쌓게 됩니다. 이는 에이전트 작업을 가능한 가장 작은 원자적 단위로 분해하고, 종단간(End-to-end) LLM 추론에 의존하기보다는 중간 결과를 검증해야 한다는 강력한 근거가 됩니다.
또한 FinSim은 Bean Labs에 구체적인 방향을 제시합니다. Beancount 전용 거래 시뮬레이터는 원장 작업에 대해 모델을 평가하고 미세 조정하기 위한 라벨링된 테스트 케이스를 생성할 수 있습니다. 아키텍처는 이미 존재하므로, 도메인만 이식하면 됩니다.
더 읽어보기
- Financial Statement Analysis with Large Language Models (Alex Kim, Maximilian Muhn, Valeri Nikolaev; arXiv:2407.17866) — GPT-4가 재무제표에서 수익 방향을 예측하는 능력을 테스트 하여 좁은 범위의 ML 모델과 동등한 수준을 달성했음을 보여줍니다. 재무제표 생성에 대한 FinMaster의 비관적인 수치와 대조되는 유용한 데이터 포인트입니다.
- FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — 다중 문서 추론을 통한 더욱 세밀한 감사 평가를 제공하며, FinMaster의 부족한 35개 감사 작업 범위를 보완합니다.
- AuditBench: A Benchmark for Large Language Models in Financial Statement Auditing (Springer 2025) — 합성된 거래 데이터와 실제 재무표를 결합하여 오류 탐지 및 설명을 테스트하며, FinMaster의 감사 모듈과 직접 비교 가능한 방법론을 사용합니다.
