본문으로 건너뛰기

Fin-RATE: LLM이 기간 간 및 기업 간 재무 분석에서 실패하는 방식

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

금융 LLM 벤치마크의 궤적은 계속해서 범위를 확장하고 있으며, Fin-RATE는 모델이 실제 분석가처럼 단일 공시뿐만 아니라 여러 기간에 걸쳐, 그리고 동종 업계 경쟁사와 비교하여 기업을 추적하도록 요청받았을 때 어떤 일이 발생하는지를 보여주는 가장 명확한 사례입니다.

논문

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

2026년 2월 예일 대학교의 Yidong Jiang, Junrong Chen 및 협력 기관 연구진이 발표한 Fin-RATE는 2020년부터 2025년 사이의 43개 기업, 36개 산업 분야에 걸친 2,472개의 SEC 공시를 바탕으로 구축된 벤치마크를 소개합니다. 이 벤치마크는 전문 분석가의 워크플로우를 반영하는 세 가지 작업 유형으로 구성된 7,500개의 전문가 큐레이션 QA 쌍으로 이루어져 있습니다. 세 가지 작업은 DR-QA(단일 공시 내 세부 사항 및 추론), EC-QA(공통 주제에 대한 두 기업 간의 비교), LT-QA(보고 기간에 따른 동일 기업의 시계열 추적)입니다. 각 작업 유형은 2,500개의 질문을 포함합니다. 평가는 GPT-4.1 및 GPT-5를 포함한 폐쇄형 소스 모델, DeepSeek-V3 및 Llama-3.3-70B와 같은 오픈 소스 범용 모델, Fin-R1, Fino1-14B, FinanceConnect-13B, TouchstoneGPT-7B와 같은 금융 특화 모델 등 총 17개의 LLM을 대상으로 진행되었습니다. 점수 산정에는 통합 LLM-as-Judge 프레임워크를 사용하며, 세 명의 독립적인 평가자(GPT-5, DeepSeek-V3.2, Qwen3-235B)가 각 응답의 정확성과 5가지 분석 차원을 평가합니다.

핵심 아이디어

  • 작업의 복잡성이 증가함에 따라 성능이 급격히 저하됩니다. 17개 모델 평균 결과, 단일 문서 DR-QA에서 시계열 LT-QA로 넘어갈 때 정확도가 18.60% 하락했으며, DR-QA에서 기업 간 EC-QA로 넘어갈 때 14.35% 하락했습니다.
  • 웹 검색 기능이 있는 GPT-5가 가장 우수한 성능을 보였으나, 세 가지 작업 유형 전체에서 최고 정확도는 43~44%에 불과했습니다. 이는 실제 분석가의 워크플로우를 대체하기에는 턱없이 부족한 수준입니다.
  • 금융 특화 추론 모델인 Fin-R1은 DR-QA에서 57.48%에 도달했으나, EC-QA에서는 3.32%로 무너졌습니다. 이러한 54포인트의 하락폭은 범용 모델의 성능 저하 폭을 훨씬 상회하는 수준입니다.
  • RAG(검색 증강 생성) 설정에서 모든 모델의 성능은 27% 미만으로 떨어졌습니다. 이는 정답 컨텍스트(gold-context)를 제공했을 때의 최고 성능인 57.48%와 대조적이며, LLM 자체가 아닌 검색 파이프라인이 결정적인 병목 현상임을 보여줍니다.
  • 이 논문은 환각 및 모순, 금융 특화 수치 및 의미 오류, 쿼리/컨텍스트 이해 오류, 검색 수준 실패 등 4개 카테고리에 걸친 13가지 유형의 오류 분류 체계를 제시합니다. RAG 환경의 EC-QA 작업에서 '증거 누락(Missing Evidence)'은 오류의 75.44%를 차지했습니다.
  • 금융 특화 모델은 용어 선택은 뛰어날지라도, 복잡한 작업에서 범용 모델보다 체계적으로 높은 환각 발생률을 보였습니다.

유효한 점과 그렇지 않은 점

세 가지 경로로 구성된 구조는 매우 잘 설계되었습니다. 대부분의 금융 벤치마크(FinQA, TAT-QA, FinanceBench)는 QA를 단일 문서 작업으로 취급합니다. Fin-RATE는 기업 간 비교와 시계열 추적을 주요 작업으로 명시적으로 모델링한 최초의 사례 중 하나이며, 그 결과 현재의 LLM이 고립된 공시 QA는 어느 정도 처리하지만, 문서, 엔티티 또는 기간을 가로질러 종합해야 하는 순간 무너진다는 근본적인 격차를 드러냈습니다.

Fin-R1의 성능 급락은 이 논문의 가장 놀라운 발견이며 저평가된 부분이라고 생각합니다. 단일 문서 추출에 뛰어난 금융 특화 모델이 역설적으로 스스로를 막다른 골목으로 몰아넣은 것으로 보입니다. 즉, 단일 문서 내에서 답변하는 템플릿은 학습했지만, 엔티티와 기간을 연결하는 추론 전략은 학습하지 못한 것입니다. 이는 명시적인 다중 문서 추론 감독 없이 좁은 도메인에만 미세 조정(fine-tuning)을 하는 것에 대한 구체적인 경고입니다. 모델은 "공시에서 숫자를 찾는" 얕은 패턴에 과적합(overfitting)되었을 가능성이 높으며, "이 숫자를 다른 회사의 다른 공시에 있는 동일한 숫자와 비교하라"는 식의 일반화 경로를 갖지 못한 것입니다.

그럼에도 불구하고 짚고 넘어가야 할 방법론적 우려 사항이 있습니다. GPT-5는 평가 대상 모델인 동시에 답변을 채점하는 세 명의 평가자 중 한 명입니다. 저자들은 개별 편향을 줄이기 위해 세 명의 평가자를 사용했지만, 가장 강력한 평가 대상 모델과 평가자가 겹치는 것은 우려스러운 부분입니다. 논문은 평가자 간 높은 일치도를 보고하고 있지만, GPT-5가 자신의 응답을 채점한 비율이나 GPT-5의 자가 평가 점수가 다른 두 평가자와 체계적으로 다른지 여부를 별도로 정량화하지 않았습니다. 자가 평가 편향이 존재한다면 연구에서 가장 우수한 성능을 보인 모델의 결과가 부풀려졌을 수 있습니다.

43개 기업이라는 샘플 규모도 다소 작습니다. 공시 유형의 범위(10-K, 10-Q, 8-K, 6-K, DEF 14A 및 여러 S 및 SC 시리즈)는 칭찬할 만하지만, 모든 작업에 동일한 43개 기업이 등장합니다. 사전 학습(pre-training) 단계에서 이러한 기업의 공시를 본 적이 있는 모델은 수치화되지 않은 이점을 갖게 되며, 논문에는 데이터 오염(contamination) 분석이 포함되어 있지 않습니다.

검색(retrieval) 관련 발견은 중요하지만 불완전합니다. 논문은 검색 실패로 인해 RAG 성능이 정답 컨텍스트 대비 약 30포인트 하락한다는 점을 식별했습니다. 하지만 단일 검색 설정만 벤치마킹했을 뿐, 검색 실패를 체계적으로 변화시켜야 할 변수가 아닌 진단 결과로만 취급했습니다. Fin-RATE에서 다양한 검색 아키텍처를 훑어보는 후속 연구가 나온다면 훨씬 더 실용적일 것입니다.

금융 AI에 이것이 중요한 이유

Beancount 장부 감사는 Fin-RATE가 제대로 작동하지 않는다고 밝힌 바로 그 두 가지 기능, 즉 시계열 추적(이 계정이 회계 연도에 따라 어떻게 진화했는가?)과 엔티티 간 비교(이 자회사의 대차대조표가 연결 재무제표와 일치하는가?)를 정확히 필요로 합니다. 시계열 추적 시 18.60%의 정확도 하락은 여러 보고 기간에 걸쳐 추론하는 Beancount 에이전트에 대한 기대치를 조정해야 하는 구체적인 수치입니다. 최첨단 모델이 정답 컨텍스트가 주어진 시계열 SEC QA에서도 43%의 성공률에 그친다면, 수년간의 장부 기록을 탐색하는 Beancount 에이전트는 엔드-투-엔드 LLM 추론이 아니라 명시적인 검색, 시간적 근거 제시(temporal grounding), 그리고 인간의 개입을 염두에 두고 설계되어야 합니다.

검색 성능이 지배적이라는 발견은 시스템 설계 우선순위에 있어 매우 중요합니다. 정답 컨텍스트에서의 성능이 RAG 성능의 거의 두 배라면, 더 성능 좋은 백본 LLM보다는 더 나은 청킹(chunking), 구절 선택(passage selection), 검색 기술에 투자하는 것이 옳습니다. 이는 DocFinQA가 긴 컨텍스트의 SEC 공시에 대해 발견한 것과 맥을 같이 합니다. 즉, 모델을 둘러싼 파이프라인이 병목 현상이라는 것입니다.

Fin-R1에 대한 경고는 Beancount 사용 사례에도 직접 적용됩니다. Beancount DSL 구문과 거래 패턴에 대해 미세 조정을 하면 단순한 항목 생성은 잘 처리하는 모델이 만들어질 수 있지만, 감사를 유용하게 만드는 다중 계정, 다중 기간 대조 작업에서는 무너질 수 있습니다. 다중 문서 추론 훈련이 없는 특화는 Fin-RATE가 측정한 방식대로 취약할 수밖에 없습니다.

다음 읽을거리

  • Fin-R1 (arXiv:2503.16252) — 어떤 학습 설정이 그렇게 취약한 교차 문서 성능을 낳았는지, 그리고 다중 문서 추론이 고려 대상이었는지 이해하기 위해.
  • FinTrace (arXiv:2604.10015) — 34개 금융 작업 카테고리에 걸친 LLM 도구 호출의 궤적 수준 평가. Fin-RATE의 정적 QA 관점을 보완하여 모델이 올바른 도구를 호출하면서도 결과에 대해 추론하지 못하는 지점을 진단합니다.
  • OpenHands (arXiv:2407.16741) — TheAgentCompany 평가의 기반이 되는 오픈 에이전트 플랫폼. 이 플랫폼의 아키텍처를 이해하면 어떤 기본 에이전트 기능이 사용 가능했는지, 그리고 어떤 격차가 플랫폼의 한계가 아닌 작업의 난이도 때문인지 명확해집니다.