본문으로 건너뛰기

MultiHiertt: 다중 계층 재무 제표에 대한 수치 추론 벤치마킹

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

이번 달에 읽은 모든 재무 QA 벤치마크(FinQA, TAT-QA, ConvFinQA)는 문서당 하나의 평면형 테이블(flat table)이라는 암묵적인 가정을 전제로 하고 있습니다. 하지만 실제 재무 보고서는 전혀 그렇지 않습니다. 연결 대차대조표는 모회사 내부에 부문별, 자회사별 계층 구조를 포함하며, 손익계산서는 그 자체로 상위 집계에 포함되는 소계(sub-totals)를 가진 계층적 항목들로 구성됩니다. MultiHiertt(Zhao 등, ACL 2022)는 정확히 이러한 격차를 드러내기 위해 구축된 최초의 벤치마크 데이터셋이며, 그 결과 수치는 상당히 냉혹합니다.

논문 내용

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

펜실베이니아 주립대학교의 Yilun Zhao, Yunxiang Li, Chenying Li, Rui Zhang은 2,513개의 실제 재무 보고서에서 추출한 10,440개의 질문-답변 쌍으로 구성된 QA 벤치마크인 MultiHiertt를 소개합니다. 각 문서는 약 68개의 문장(~1,645 단어)의 서술형 텍스트와 함께 평균 3.89개의 계층적 테이블을 포함하고 있습니다. 훈련/검증/테스트 데이터 분할은 7,830 / 1,044 / 1,566입니다. 핵심 주장은 단순하지만 명확합니다. 이전 데이터셋(FinQA, TAT-QA)은 단일 평면 테이블이 있는 문서로 모델을 평가하며, 이는 질문이 산술 프로그램을 적용하기 전에 세 개의 개별 하위 테이블의 수치를 합성해야 할 수도 있는 실제 재무 공시 자료에 대한 추론 복잡성을 체계적으로 과소평가한다는 것입니다.

저자들은 데이터셋과 함께 2단계 모델인 MT2Net을 제안합니다. 이 모델은 모든 테이블과 단락에서 후보 지원 셀과 텍스트 범위를 점수화하는 사실 검색(facts-retrieval) 모듈과, 검색된 사실을 바탕으로 작동하는 기호 추론(symbolic reasoning) 모듈(FinQA의 NeRd 설계에서 차용한 산술 프로그램 실행기)로 구성됩니다. MT2Net은 인코더로 RoBERTa-large를 사용합니다.

주요 개념

  • MultiHiertt의 문서당 평균 3.89개 테이블은 실제 연례 보고서 구조를 직접적으로 반영합니다. 하나의 질문에 대해 손익계산서, 부문별 상세 테이블, 각주 일정표의 수치가 필요할 수 있으며, 이 중 어느 것도 평면형이 아닙니다.
  • MT2Net(RoBERTa-large)은 테스트 세트에서 38.43%의 F1 점수를 기록한 반면, 인간 전문가는 87.03%를 기록하여 약 49점의 격차를 보였습니다.
  • 교차 테이블 추론 질문(2개 이상의 테이블에서 증거가 필요한 경우)은 최고 모델에서 21.04%의 F1 점수를 기록했는데, 이는 단일 테이블 질문의 36.77%에 비해 이미 낮은 기준선에서 15점 이상 하락한 수치입니다.
  • 기호 추론 모듈은 도움이 되지만 검색 실패를 보상할 수는 없습니다. 주석 연구에 따르면 계층적 예시에서 발생하는 오류의 31.5%는 산술 연산을 시도하기도 전에 잘못된 증거 셀을 선택한 것에서 기인합니다.
  • 2024년 기준으로 Program-of-Thoughts 프롬프팅을 사용한 GPT-4는 MultiHiertt에서 67.23%의 F1 점수에 도달했으며, 전용 EEDP(증거 강화 문서 프롬프팅) 방법은 GPT-4를 70.32%까지 끌어올렸으나 여전히 인간의 수준보다는 17점 낮습니다.
  • 주석 품질은 견고합니다. 평가자 간 카파(Kappa) 지수는 0.72–0.90이며, 크라우드 워커들이 샘플의 76.8%–94.0%에 대해 정확도 4/5점 이상을 부여했습니다.

유지되는 부분과 그렇지 않은 부분

데이터셋 구축은 세심하며 주석 품질 지표는 신뢰할 만합니다. 단일 테이블 벤치마크가 실제 복잡성을 과소평가한다는 핵심 주장은 명백히 사실이며, 단일 테이블과 다중 테이블 서브셋 사이의 15점 F1 격차는 이를 구체적으로 입증합니다. 비교표(논문의 표 1)는 FinQA와 TAT-QA가 문서당 하나의 테이블을 갖는 반면, MultiHiertt는 실제로 존재하는 공백을 메우고 있음을 보여줍니다.

그럼에도 불구하고 MT2Net은 강력한 해결책이라기보다는 강력한 기준선(baseline)에 가깝습니다. 검색 모듈은 지원 사실에 대한 감독 학습으로 훈련된 스팬 수준 점수 측정기이므로, 훈련 시 정확한 감독 신호가 있는가에 크게 의존합니다. 이 논문은 계층 구조가 암시적인 경우(명시적인 부모-자식 HTML 중첩이 없는 경우) 어떤 일이 발생하는지 평가하지 않는데, 이는 스캔된 공시 자료나 오래된 PDF에서 흔히 볼 수 있는 상황입니다. 테스트 세트는 CodaLab 리더보드 뒤에 숨겨져 있어 결과를 독립적으로 재현하거나 실패 모드를 조사하기 어렵습니다.

또한 저자들이 덜 강조한 부분을 지적하고 싶습니다. 2024년 GPT-4 결과는 계층 구조를 위해 특별히 설계된 아키텍처 없이도 순수한 추론 능력만으로 격차의 상당 부분을 메울 수 있음을 보여줍니다. GPT-4는 문서에 계층적 테이블이 있다는 말을 듣지 않고도 70%에 도달했습니다. 렌더링된 HTML을 읽었을 뿐입니다. 이는 실제로 흥미로운 발견입니다. 계층 구조 인식은 방대한 컨텍스트 용량과 산술적 신뢰성보다 덜 중요할 수 있습니다. 여전히 제약 사항은 추론 아키텍처가 아니라 긴 문서에 대한 검색 정밀도일 수 있습니다.

금융 AI에 이것이 중요한 이유

Beancount 에이전트들도 정확히 이 문제에 직면합니다. "2023년의 실효 세율은 얼마였나?"와 같은 질문은 손익계산서에서 법인세 차감 전 순이익 항목을 찾고, 별도의 주석에서 법인세 비용을 찾고, 연결 수치를 조정하기 위해 부문별 상세 내역이 필요할 수도 있습니다. 이 중 어느 것도 단일 평면 테이블에 들어있지 않습니다. MultiHiertt에서 교차 테이블 추론에 대한 15점 F1 하락은 Beancount 환경에서 예상되는 현상을 수치화합니다. 단일 계정 쿼리에서는 우수해 보이는 에이전트라도 장부 섹션을 가로질러 조인(join)이 필요한 질문에서는 성능이 크게 저하될 것입니다.

오류 분석은 즉각적으로 적용 가능합니다. 계산이 이루어지기 전의 오류 중 31.5%가 잘못된 증거 검색이라면, Beancount 기록 에이전트의 우선순위는 더 나은 산술 엔진이 아니라 더 나은 증거 선택기입니다. 수학을 하기 전에 잘못된 장부 라인을 가져오는 에이전트는 그럴듯해 보이지만 틀린 항목을 생성하게 되며, 이는 감사에서 잡아내기 가장 어려운 오류 유형입니다.

GPT-4의 궤적은 단기적으로 고무적입니다. 2년 만에 38%에서 70%로 향상된 것은 도메인 전용 훈련 없이도 컨텍스트 창과 추론 능력이 개선됨에 따라 다중 테이블 재무 추론이 다룰 수 있는 영역이 되고 있음을 시사합니다. 하지만 인간의 성능과 여전히 격차가 있는 17점은 노이즈가 아닙니다. 이는 평면 텍스트 렌더링에서 손실되는 계층 구조의 의미론적 중요성을 반영하는 사례일 가능성이 높습니다.

다음에 읽을거리

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis 등, NeurIPS 2020) — arXiv:2005.11401 — 거의 모든 재무 QA 시스템이 구축되는 토대입니다. 매개변수적 메모리와 비매개변수적 메모리 분할을 이해하는 것은 장부 검색 구조를 결정하는 데 중요합니다.
  • FLARE: Active Retrieval Augmented Generation (Jiang 등, EMNLP 2023) — arXiv:2305.06983 — 모델이 새로운 사실이 필요하다고 예측할 때 생성 중간에 검색을 수행합니다. 이는 추론 도중 보조 테이블이 필요하다는 것을 발견하게 되는 다중 테이블 추론에 자연스럽게 들어맞습니다.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao 등, ICAIF 2024) — FinQA/TAT-QA/MultiHiertt 데이터로 LLM을 미세 조정하여 도메인 적응이 GPT-4 프롬프팅에 비해 실제로 어떤 이점을 주는지 보여줍니다.