FinAuditing: 실제 SEC XBRL 감사 작업에서 LLM의 점수가 14% 미만을 기록함
FinAuditing은 금융 NLP 리더보드를 장악하고 있는 다듬어진 QA 쌍이 아니라, 실제 SEC XBRL 공시의 구조적 복잡성을 기준으로 LLM을 벤치마킹합니다. 제가 지금 이 논문을 읽고 있는 이유는 Bean Labs의 감사 의제가 기존 벤치마크로는 답할 수 없는 질문으로 계속 돌아오기 때문입니다. 즉, 모델이 구조화된 공시 전체를 메모리에 유지하면서 내부 일관성을 검증할 수 있는가 하는 점입니다.
논문 요약
Wang 등은 SEC EDGAR의 218개 XBRL 공시에서 추출한 1,102개 사례를 포함하는 FinAuditing을 소개합니다. 이는 XBRL US 데이터 품질 위원회(DQC)에서 분류한 오류 유형들을 다룹니다. XBRL은 SEC가 모든 상장 기업 공시에 요구하는 기계 판독 가능 형식입니다. 각 공시는 인스턴스 문서(보고된 숫자), 분류체계 스키마(유효한 회계 개념), 그리고 개념 간의 관계를 명시하는 계산(calculation), 표시(presentation), 정의(definition), 레이블(label)의 네 가지 링크베이스를 묶어 제공합니다. 이 벤치마크는 세 가지 감사 하위 작업을 실행합니다: 재무 의미론적 매칭(FinSM, 보고된 사실에 대해 올바른 분류체계 개념 검색), 재무 관계 추출(FinRE, 두 분류체계 노드 간의 관계 분류), 재무 수학적 추론(FinMR, 보고된 수치가 분류체계에 정의된 계산 규칙을 충족하는지 검증). 사례들의 평균 토큰 수는 33,848개로, 많은 오픈 소스 모델의 유효 컨텍스트 한계에 도달하거나 이를 초과하며, 13개 모델 모두 제로샷으로 테스트되었습니다.
핵심 아이디어
- FinSM은 기본적으로 분류체계 검색입니다. 공시의 사실이 주어졌을 때 올바른 US-GAAP 개념을 찾는 것입니다. DeepSeek-V3가 12.42%의 Hit Rate@20으로 1위를 차지했습니다. 이는 20개의 후보 중 선택할 때 8번 중 1번 미만으로 맞힌 셈입니다. GPT-4o는 9.09%를 기록했습니다.
- FinRE(링크베이스 관계 분류)는 가장 쉬운 작업입니다. GPT-4o는 91.82%의 정확도와 90.09 Macro F1에 도달했습니다. 하지만 금융 능력이 있다고 마케팅되는 Qwen3-32B와 Fino1-14B는 모두 0.00%를 기록했는데, 이는 CombinationErr 관계 유형에서 완전히 실패한 것으로 보입니다.
- FinMR은 매우 어렵습니다. Fino1-14B가 13.86%의 정확도로 앞서고 있으며, 대부분의 모델은 한 자릿수 점수에 머물러 있습니다. 오류 분석 결과, 실패의 70
83%는 다단계 계산 규칙 전반에 걸친 산술 실수 때문이며, 구조적 포맷팅 오류는 모델에 따라 971%를 차지합니다. - 소스 데이터는 가공된 대조 사례가 아니라 2020~2024년 실제 공시에서 발생한 4,545개의 DQC 오류 메시지입니다. 벤치마크는 실제 DQC 위반의 60.33%를 차지하는 가장 빈번한 9가지 오류 유형을 선택했습니다.
- 도메인 특화 모델(Fino1-14B, FinR1)이 범용 대형 모델을 체계적으로 압도하지는 못합니다. Fino1-14B는 FinMR에서만 앞서고 있으며, 그마저도 13.86%는 노이즈보다 약간 높은 수준입니다.
유효한 점과 그렇지 않은 점
이 벤치마크는 QA 쌍 형식을 벗어났다는 점 자체로 가치가 있습니다. 성공을 위해서는 단순히 텍스트 범위를 질문에 맞추는 것이 아니라 링크베이스 관계를 이해해야 하기 때문입니다. 인스턴스 구성을 DQC 위반에 근거하게 한 점은 재현 가능하며 실제 감사 프로세스와 직접 연결됩니다.
그럼에도 불구하고 몇 가지 우려되는 점이 있습니다. FinRE 결과는 의아합니다. 도메인 역량이 있는 모델이 0.00%로 무너지는 반면 GPT-4o가 91.82%를 기록하는 변동성은 진정한 추론 능력보다는 프롬프트 민감도와 출력 형식 불일치를 반영할 가능성이 매우 높습니다. 이 논문은 프롬프트 형식을 변경해보거나 퓨샷(few-shot) 베이스라인을 제공하지 않고 모든 모델을 제로샷으로 테스트했기 때문에, 0.00% 점수를 파싱 실패가 아닌 지능 부족으로 돌리기에는 무리가 있습니다. FinMR에 사용된 LLM-as-judge 프레임워크 역시 평가 노이즈를 추가할 수 있습니다.
"계층적 다중 문서 구조에서 정확도가 60~90% 하락한다"는 주요 주장 역시 더 명확한 기준점이 필요합니다. 이것이 인간의 성과와 비교한 것인지, 동일한 작업의 단일 문서 버전과 비교한 것인지, 아니면 비계층적 변형과 비교한 것인지가 분명하지 않습니다. 방향성은 맞지만, 그러한 기준 없이는 규모를 해석하기 어렵습니다.
금융 AI에서 이것이 중요한 이유
Beancount 파일은 XBRL은 아니지만 주요 구조적 특성을 공유합니다. 분류체계 스키마와 유사한 계층적 계정 네임스페이스, 계산 링크베이스와 유사하게 균형을 맞춰야 하는 복식부기 제약 조건, 그리고 개념-인스턴스 매칭과 유사하게 정형화된 카테고리를 참조하는 유형화된 엔트리들이 그것입니다. 다단계 계산 규칙에서 산술 실수를 저지르는 FinMR 실패 모드는 Beancount 잔액 검증에서 매우 중요한 문제입니다. 만약 GPT-4o가 XBRL 공시에서 US-GAAP 합산 트리가 올바르게 합산되는지 안정적으로 검증할 수 없다면, 산술 연산을 외부 도구(PAL 방식 등)로 위임하지 않고는 장부의 복잡한 계정 계층 구조를 검증하는 데 신뢰할 수 없을 것입니다.
FinSM 수치는 사용자가 입력한 계정 이름이나 거래 설명을 정형화된 계정 과목표(COA)에 매핑하는 모든 Beancount 에이전트에게 직접적인 경고입니다. 가장 뛰어난 모델조차 상위 20개 후보 중에서 올바른 개념을 찾아내 는 확률이 13% 미만입니다. 순위 기반 검색은 특화된 리트리버(retriever)나 대상 분류체계에 대한 미세 조정 없이는 실제 프로덕션 수준에 도달하기에 턱없이 부족합니다.
도메인 특화 모델의 결과가 저조하다는 점은 시사하는 바가 큽니다. 이러한 종류의 구조화된 추론 작업에서는 여전히 금융 사전 학습보다 모델의 규모와 구조화된 프롬프트가 결과를 결정합니다.
더 읽어보기
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) — 계층적 XBRL 링크베이스 구조는 마이크로소프트의 GraphRAG가 목표로 하는 문서 그래프의 전형적인 모습입니다. FinAuditing의 검색 실패에 대한 아키텍처적 대응으로서 읽어볼 가치가 있습니다.
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) — 동일 저자들의 논문으로, 재무적 사실을 분류체계 개념에 매핑하는 작업(감사 이전의 상위 작업)에 초점을 맞추고 있으며 FinAuditing의 범위를 보완합니다.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) — 만약 모델이 제로샷에서 계산을 신뢰성 있게 검증할 수 없다면, 해결책은 더 나은 프롬프트가 아니라 에이전트 행동 위에 계층화된 정식 검증 도구(formal verification tooling)일 수 있습니다.
