본문으로 건너뛰기

FinBen: 36가지 금융 과제에 대한 LLM 벤치마킹 — 회계 AI를 위한 시사점

· 약 5분
Tian Pan
Research Engineer

FinBen은 현재까지 가장 포괄적인 금융 과제 LLM 공개 평가 자료로서 NeurIPS 2024에 발표되었습니다. Beancount 원장을 관리하는 자율 에이전트를 설계하기 전에, 이러한 에이전트가 수행해야 할 금융 추론 과제에서 최첨단 모델들이 실제로 어느 정도 수준인지 파악하고 싶어 이 논문을 자세히 읽어보게 되었습니다.

논문 개요

2026-04-15-finben-financial-llm-benchmark

Qianqian Xie를 포함한 34명의 공동 저자들은 정보 추출, 텍스트 분석, 질의응답, 텍스트 생성, 리스크 관리, 예측, 의사결정의 7가지 차원으로 구성된 24개 금융 과제, 36개 데이터셋을 아우르는 오픈 소스 벤치마크인 FinBen을 제시합니다. 그들은 GPT-4, ChatGPT, Gemini 및 여러 지시어 튜닝된 오픈 소스 모델을 포함한 15개의 대표적인 LLM을 평가했으며, 요약, 질의응답 및 주식 거래 평가를 위한 3개 데이터셋을 새로 도입했습니다.

주요 동기는 FLUE나 FLARE와 같은 기존 금융 벤치마크들이 금융 NLP의 일부분만을 포착했을 뿐 전체 파이프라인을 다루지 못했다는 점입니다. FinBen은 모든 스택을 한곳에 아우르려는 첫 번째 시도이며, NeurIPS 2024의 Datasets and Benchmarks 트랙에 채택되어 방법론적으로 상당한 검증을 거쳤음을 보여줍니다.

핵심 내용

  • 개체명 인식(NER)에서 GPT-4는 FINER-ORD 데이터셋에서 0.83 Entity F1 점수를 기록했습니다. 강력한 수치이지만, 이는 벤치마크에서 가장 쉬운 카테고리에 해당합니다.
  • FinQA(재무 보고서 기반 수치 추론)에서 GPT-4는 0.63의 Exact Match를 기록했으며, 대화형 변체인 ConvFinQA에서는 0.76을 기록했습니다. 나쁘지 않은 점수지만 아직 완벽과는 거리가 멉니다.
  • 특정 도메인에 미세 조정(fine-tuned)된 FinMA 7B는 FPB 감성 분석에서 0.88 F1을 달성하며 이 좁은 과제에서 GPT-4를 능가했습니다. 이는 잘 정의된 분류 작업에서 여전히 미세 조정이 유효함을 입증합니다.
  • 주가 변동 예측은 가장 명백한 실패 사례입니다. GPT-4조차 약 0.54의 정확도를 기록했는데, 이는 무작위 확률보다 약간 높은 수준입니다. 저자들은 이를 "LLM의 예측 능력 결여가 두드러지는 부분"이라고 언급했습니다.
  • GPT-4는 거래 과제에서 샤프 지수(Sharpe Ratio) 1.51을 기록하여 Gemini의 1.03을 앞섰으며, 평가 기간 동안 -4.00%의 매수 후 보유(buy-and-hold) 수익률 대비 28.19%의 누적 수익률을 보였습니다. 하지만 이는 통상적인 주의 사항들이 수반되는 짧은 기간의 백테스트 결과입니다.
  • 모든 모델이 추출적 요약에서 0점을 기록했으며, GPT-4는 관계 추출에서 0.01 F1을 기록했습니다. 텍스트 분류와 개방형 생성이라는 안락한 영역을 벗어나면 성능이 급격히 저하됩니다.

유효한 점과 한계점

이 벤치마크는 조사 도구로서 진정으로 유용합니다. 과제의 범위가 이전의 어떤 것보다 넓으며, 오픈 소스로 공개되어 다른 이들이 처음부터 시작하지 않고도 평가 인프라를 구축할 수 있게 되었습니다.

하지만 FinBen이 실제로 무엇을 말해줄 수 있는지에 대해서는 우려되는 부분이 있습니다. 주식 거래 평가 기간이 짧고 특정 시장에 국한되어 있습니다. 미국 주식 시장에서 몇 달 동안 계산된 샤프 지수는 안정적인 지표가 아닙니다. 추출적 요약에서의 0점은 무언가 잘못되었음을 시사하지만, 논문은 프롬프트 형식 문제인지, 토큰화 오류인지, 아니면 실제 추론 실패인지 그 이유를 진단하지 않습니다. 이를 해결하려는 이들에게는 그 구분이 매우 중요합니다.

또한 이 벤치마크는 거의 전적으로 영어와 미국 시장 중심입니다. 이는 단순히 일반화의 문제를 넘어, 독일어나 중국어 금융 문서 또는 회계 기준이 다른 관할권에서의 성능에 대해 알려주는 바가 거의 없음을 의미합니다. 전 세계 사용자를 대상으로 하는 Beancount.io와 같은 프로젝트에는 큰 공백입니다.

지시어 튜닝된 모델에 대한 이야기도 생각보다 복잡합니다. 미세 조정은 감성 분석(FinMA 7B, 0.88)에는 도움이 되지만, "QA와 같은 복잡한 과제에는 미미한 개선만 제공"합니다. 논문은 이를 결과로 보고하지만 기계론적인 설명은 제공하지 않습니다. 기반 모델의 추론 능력에 대한 치명적 망각(catastrophic forgetting) 때문일까요? 아니면 미세 조정 데이터 분포가 너무 좁기 때문일까요? 벤치마크 결과만으로는 이를 알 수 없습니다.

금융 AI 분야에서의 중요성

FinBen 결과는 Bean Labs에 이전보다 더 명확한 기준점을 제공합니다. Beancount 원장 에이전트와 가장 관련이 깊은 과제들 — 구조화된 재무 보고서에 대한 수치 QA(FinQA: 0.63 Exact Match), 거래 내역 설명에서의 정보 추출(NER: 0.83 F1), 이상 징후 탐지 또는 부정 분류(리스크 관리 과제에서 넓은 편차를 보임) — 이 모두 포함되어 있으며, 어느 것 하나 완벽히 해결되지 않았습니다.

예측 능력의 붕괴(주가 변동 0.54)는 오히려 우리의 좁은 사용 사례에는 안심이 되는 부분입니다. 우리는 모델에게 시장을 예측하라고 요구하는 것이 아니라, 구조화된 항목을 분류, 추출 및 기록하라고 요구하는 것이기 때문입니다. 이러한 과제들은 복잡도에 따라 0.63~0.83 범위에 있으며, 이는 작업 가능한 기초가 됩니다. 다만 "작업 가능"하다는 것이 "인간의 검토 없이 서비스에 바로 적용 가능"하다는 뜻은 아닙니다.

구조화된 추출과 개방형 추론 사이의 간극은 쓰기 작업(write-back)의 안전성 문제와 직결됩니다. 모델이 엔티티를 안정적으로 추출(F1 0.83)할 수 있지만 수치적 함의를 추론(FinQA 0.63)하거나 올바른 구조화된 출력을 생성(관계 추출: 0.01)하는 데 어려움을 겪는다면, 가장 안전한 아키텍처는 각 단계 사이에 명시적인 검증 절차를 두어 이 단계들을 분리하는 것입니다.

추가로 읽어볼 만한 자료

  • FinMaster (arXiv:2505.13533) — 전표 입력 및 대조를 포함한 엔드투엔드 회계 워크플로우를 명시적으로 벤치마킹하며, FinBen보다 Beancount의 과제에 더 가깝습니다.
  • "Table Meets LLM: Can Large Language Models Understand Structured Table Data?" (arXiv:2305.13062, WSDM 2024) — Beancount 원장은 본질적으로 구조화된 테이블입니다. 이 논문은 모든 원장 읽기 에이전트의 기반이 되는 구조적 이해 능력을 정확히 벤치마킹합니다.
  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — 추론과 행동이 교차하는 프레임워크는 대부분의 쓰기 작업 에이전트가 사용하는 방식입니다. FinBen이 추론의 실제 바닥 수준을 보여준 지금, 실패 모드를 이해하는 것이 더욱 중요해졌습니다.