TAT-QA: 재무 연례 보고서 추론을 위한 하이브리드 표-텍스트 질의응답 벤치마크
오늘 TAT-QA를 살펴보는 이유는 우리가 구축하려는 것과 직접적인 관련이 있는 지점에 있기 때문입니다. 바로 표와 그 주변 텍스트를 동시에 추론해야만 답할 수 있는 질문들입니다. Beancount에서 모든 장부 항목은 맥락 속에 존재합니다. 메모, 거래 상대방에 대한 설명, 또는 해당 품목이 왜 그곳에 있는지 설명하는 회계 정책 없이는 이해할 수 없는 표의 한 줄과 같습니다. NUS의 NExT++ 연구실의 Zhu 등이 ACL 2021에서 발표한 TAT-QA는 자연어 처리(NLP) 커뮤니티가 이 문제에 정면으로 맞서게 한 벤치마크입니다.
논문 소개
Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng, Tat-Seng Chua는 실제 재무 연례 보고서에 서 추출한 2,757개의 하이브리드 맥락에 대한 16,552개의 질문 데이터셋인 TAT-QA(Tabular And Textual QA)를 소개합니다. 각 맥락은 반정형 표와 최소 두 개의 수반되는 단락이 쌍을 이룹니다. 이는 수익 표가 수치를 견인한 요인에 대한 경영진의 논의와 나란히 배치되는 10-K 공시 서류에서 볼 수 있는 구조와 정확히 일치합니다. 거의 모든 질문에는 덧셈, 뺄셈, 곱셈, 나눗셈, 카운팅, 비교, 정렬 및 다중 연산 조합과 같은 산술 연산이 필요합니다.
핵심 기여는 두 가지입니다. 벤치마크 그 자체와, 해당 과업을 근거 태깅(evidence tagging) 후 기호 추론(symbolic reasoning)으로 처리하는 새로운 모델인 TAGOP입니다. TAGOP는 연결된 표 셀과 텍스트 범주(span)에 대해 시퀀스 태거를 사용하여 수집할 근거 조각을 식별한 다음, 고정된 집계 연산자 세트(합계, 차이, 곱, 비율, 개수 등)를 적용하여 최종 답을 계산합니다. 신경망 산술(neural arithmetic)을 사용하지 않으며, 계산 자체는 항상 기호 실행기(symbolic executor)에 위임됩니다.
핵심 아이디어
- 산술이 아니라 근거 식별이 어려운 부분입니다. TAGOP의 오류 분석에 따르면 실패의 약 55%는 잘못된 태깅 때문이고 29%는 누락된 근거 때문입니다. 올바른 셀과 범주를 확보하면 기호 실행기가 계산 오류를 범하는 경우는 드뭅니다. 이는 금융 에이전트에게 검색 및 근거 도출 단계가 지배적이라는 직접적인 신호입니다.
- 텍스트 전용 모델은 즉시 실패합니다. BERT-RC는 테스트 세 트에서 18.7%의 F1 점수만을 기록했습니다. TAT-QA 이전 최고의 수치 판독기인 NumNet+ V2는 46.9%의 F1에 도달했습니다. 표 전용 모델인 TaPas 베이스라인은 22.8%의 F1을 기록했습니다. 텍스트 없이 표만 읽거나, 표 없이 텍스트만 읽는 모델은 이 도메인에서 자격이 없습니다.
- TAGOP는 58.0% F1(50.1% 정확도), 인간 전문가는 90.8% F1(84.1% EM)을 기록했습니다. 발표 당시 32.8포인트의 F1 격차는 놀라운 수준이었습니다. 이는 2021년 당시 최고의 시스템조차 숙련된 분석가가 처리할 수 있는 질문의 3분의 2도 채 답하지 못했음을 의미합니다.
- 2024년 말 현재, 리더보드는 다른 이야기를 들려줍니다. 상위 시스템인 TAT-LLM(70B)은 88.4% F1에 도달하여 인간과 불과 2.4포인트 차이밖에 나지 않습니다. TAT-LLM(7B)은 82.88% F1에 도달했고, 제로샷(zero-shot) 상태의 GPT-4는 79.71% F1을 기록했습니다. LLM 규모의 미세 조정을 통해 격차가 극적으로 좁혀졌습니다.
- 특화된 미세 조정은 여전히 기본 GPT-4를 능가합니다. TAT-LLM 7B(74.56% EM)는 매개변수 수가 훨씬 적음에도 불구하고 TAT-QA에서 GPT-4 제로샷(71.92% EM)보다 뛰어난 성능을 보입니다. TAT-LLM이 사용하는 단계별 추출기(Extractor)→추론기(Reasoner)→실행기(Executor) 파이프라인은 TAGOP의 직관을 반영하지만, 기호 태거를 프롬프트 기반 LLM으로 대체한 형태입니다.
유효한 점과 한계점
이 벤치마크는 실제 데이터, 실제 질문, 실제 재무 보고서라는 점이 가장 큰 강점입니다. 발표 당시 32포인트의 인간-모델 격차는 실제였으며, 이 데이터셋은 5년이 지난 지금도 상위 시스템들이 완전히 정복하지 못할 정도로 어렵습니다.
우려되는 점은 단일 표 가정입니다. 각 TAT-QA 맥락에는 정확히 하나의 표만 포함되어 있습니다. 실제 연례 보고서에는 부문, 자회사, 기간에 걸쳐 계층적 관계를 가진 수십 개의 표가 포함되어 있습니다. TAT-QA 질문을 완벽하게 답할 수 있는 모델이라도 실제 회계 업무를 지배하는 다중 표 통합 작업에는 여전히 준비가 부족할 수 있습니다. MMQA 논문(ICLR 2025)이 정확히 이 점을 지적하며, TAT-QA와 같은 단일 표 벤치마크가 실무자가 직면하는 다중 표의 복잡성을 과소평가하고 있다고 말합니다.
답변 유형 분포 또한 실제보다 덜 까다로울 수 있습니다. TAT-QA 답변의 약 42%는 단일 범주로, 계산이 필요 없는 직접 추출 방식입니다. 어려운 다중 연산 조합은 소수에 불과합니다. 모든 추출은 맞히고 산술 연산은 모두 틀리는 모델도 30~40% 정도의 점수를 얻을 수 있습니다. 벤치마크가 난이도에 따른 가중치를 두지 않아 진정으로 어려운 추론 사례에서 나오는 신호가 희석됩니다.
마지막으로, 인간 베이스라인(90.8% F1)은 문서에 접근할 수 있는 주석 작성자를 사용해 계산되었지만, 이들이 공인회계사(CPA) 수준의 전문가는 아니었을 수 있습니다. 단순 산술뿐만 아니라 회계 정책을 이해해야 하는 Beancount 규모의 장부 추론의 경우, 90.8%는 '정확한' 상한선으로 보기에 과대평가되었을 수 있습니다.
금융 AI에서 이것이 중요한 이유
TAT-QA는 Beancount 에이전트가 매일 마주하는 상황, 즉 비정형 서술(메모, 설명, 정책 노트)과 나란히 있는 구조화된 항목 데이터(표)와 가장 유사한 공개 벤치마크입니다. TAGOP 결과는 장부 도구를 만들면서 예상했던 것, 즉 산술보다 근거 도출이 더 어렵다는 점을 확인시켜 줍니다. 올바른 셀을 태깅하는 것이 문제이지, 이를 합산하는 것은 사소한 일입니다.
리더보드의 궤적은 제품 관점에서 고무적입니다. 이 도메인에서 미세 조정된 7B 매개변수 모델이 GPT-4 제로샷보다 성능이 우수하다는 것은, Beancount 전용으로 미세 조정된 모델이 모든 장부 쿼리에 대해 프런티어 모델 API 호출 없이도 검색 및 산술 작업을 처리할 수 있음을 시사합니다. 소형 전문 모델을 로컬에서 실행할 수 있다면 지연 시간, 비용, 데이터 프라이버시가 모두 개선됩니다.
단일 표의 한계는 Bean Labs가 해결해야 할 직접적인 격차입니다. Beancount 장부는 사실상 계정 포스팅, 예산 라인, 조정 노트와 같은 다중 표 문서이며, 관련 표들 사이에서 이러한 다중 홉(multi-hop) 구조를 포착하는 벤치마크는 아직 완전히 존재하지 않습니다. MultiHiertt(ACL 2022)가 가장 근접한 사례이며, 다음으로 읽을 목록에 있습니다.
다음 읽을거리
- MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — TAT-QA의 단일 표 한계를 직접적으로 해결합니다. 질문은 동일한 금융 문서 내의 여러 계층적 표에 걸친 추론을 요구하며, 이는 연결 장부 제표의 모습과 더 가깝습니다.
- ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — FinQA를 다회차 대화로 확장합니다. 모델은 대화 과정에서 수치적 맥락을 추적해야 하며, 이는 Beancount 에이전트가 장부 세션에 대한 후속 질문을 처리하는 방식과 일치합니다.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — 동일한 NExT++ 그룹의 직접적인 후속 연구입니다. 추출기(Extractor)→추론기(Reasoner)→실행기(Executor) 파이프라인으로 미세 조정된 LLaMA-2가 TAT-QA 및 FinQA에서 GPT-4 제로샷을 어떻게 능가하는지 보여줍니다.
