TAT-LLM: 금융 표 및 텍스트에 대한 이산적 추론을 위해 미세 조정된 LLaMA 2
검색 및 지식 주입에 대해 일주일간 연구한 후, 저는 반대의 측면을 살펴보고 싶었습니다. 즉, 작업이 명확하게 정의되었을 때 표적화된 미세 조정이 실제로 어떤 이득을 줄 수 있는가 하는 점입니다. TAT-LLM(arXiv:2401.13223, ICAIF 2024)은 이에 대한 깔끔한 답 중 하나를 제시합니다. 금융 표-텍스트 QA 벤치마크에서 구조화된 파이프라인으로 LLaMA 2를 미세 조정하여 GPT-4를 능가하는 것입니다. 늘 그렇듯이, 핵심은 세부 사항에 있습니다.
논문 개요
싱가포르 국립 대학교(NUS) NExT++의 Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li, Tat-Seng Chua는 표와 텍스트가 혼합된 데이터에 대한 이산적 추론을 위해 미세 조정된 LLaMA 2 모델인 TAT-LLM을 선보였습니다. 핵심 문제는 재무 보고서에 대한 수치적 질문에 답하는 것입니다. 이는 표에서 특정 행을 찾고, 두 수치를 추출한 다음, 답을 도출하기 위해 다단계 산술 연산을 수행해야 하는 종류의 질문입니다. 이는 사람들이 10-K 공시 자료를 읽을 때 수행하는 작업과 정확히 일치합니다.
저자들은 거대 모델을 엔드투엔드로 프롬프팅하는 대신, 작업을 세 가지 명시적인 단계로 분해했습니다. 문서에서 관련 수치 근거를 식별하는 추출기(Extractor), 산술 식을 작성하는 추론기(Reasoner), 그리고 식을 결정론적으로 실행하는 **실행기(Executor)**입니다. 훈련 데이터는 기존의 전문가 주석 데이터셋인 FinQA, TAT-QA, TAT-DQA의 각 사례에 중간 추출 및 추론 단계를 주석으로 추가하여 자동으로 생성되었습니다. 미세 조정에는 LLaMA 2의 7B, 13B, 70B 세 가지 규모에 걸쳐 LoRA를 사용했습니다.
핵심 아이디어
- 파이프라인 분해가 엔드투엔드 방식보다 우수함: 외부 실행기(결정론적 산술)만으로도 7B 모델의 FinQA 점수를 16.66 EM 포인트나 높였습니다. 모델에게 산술 자체가 어려운 것이 아니라, 자연어로 수행될 때 그 결과가 처참할 정도로 신뢰할 수 없을 뿐입니다.
- 7B 모델이 세 가지 벤치마크 모두에서 GPT-4를 능가함: TAT-LLM 7B는 FinQA에서 64.60% EM(GPT-4 63.91% 대비), TAT-QA에서 74.56% EM(71.92% 대비), TAT-DQA에서 69.45% EM(64.46% 대비)을 기록했습니다. TAT-DQA에서의 거의 5포인트 차이는 매우 설득력 있습니다.
- 추출이 주된 실패 모드: 오류 분석 결과, 실수의 48%는 잘못된 근거 추출에서 기인했습니다. 모델이 잘못된 행이나 열을 식별하거나, 생소한 금융 용어로 인해 숫자를 잘못 읽는 경우입니다. 잘못된 연산자를 선택한 경우는 19%에 불과했습니다.
- 규모의 확장은 완만한 도움이 됨: 70B 공동 훈련 변체(TAT-LLM-All)는 FinQA를 76.81% EM으로, TAT-QA를 81.42% F1으로 끌어올리며 유의미한 이득을 보였습니다. 하지만 7B 모델이 이미 GPT-4를 넘어섰다는 점은 매개변수 수보다 파이프라인 구조가 더 중요하다는 것을 시사합니다.
- 인간 전문가는 여전히 훨씬 앞서 있음: TAT-QA에서 인간의 성능은 90.8% F1인 반면, TAT-LLM의 최고 결과는 81.42% F1입니다. 격차는 엄연히 존재하며 논문에서도 이를 인정하고 있습니다.
타당한 점과 그렇지 않은 점
핵심적인 기술적 기여는 타당합니다. 산술 연산을 결정론적 실행기로 넘기는 것은 분명히 옳은 선택이며, 소거 연구(ablation)를 통해 이를 결정적으로 증명했습니다. 이는 PAL이나 유사한 연구들을 통해 잘 알려진 교훈이지만, 금융 전문 벤치마크에서 이를 수치화(+16.66 포인트)하여 확인한 것은 가치 있는 일입니다.
제가 다소 회의적인 부분은 "GPT-4를 능가했다"는 헤드라인 문구입니다. FinQA에서의 차이는 0.69 EM 포인트로 사실상 오차 범위 내에 있으며, GPT-4의 수치는 생각의 사슬(CoT), 퓨샷 예시 또는 자체 코드 인터프리터를 사용하지 않은 제로샷이나 가벼운 프롬프트 평가 결과입니다. 파이썬 도구를 사용하는 프롬프트 기반의 GPT-4는 거의 확실히 이 수치를 넘어설 것입니다. 비교 자체가 틀린 것은 아니지만, 초록에서 암시하는 것만큼 "전문화의 승리"라고 보기는 어렵습니다.
또한 평가 데이터 유출에 대한 상당한 우려가 있습니다. 모델은 FinQA, TAT-QA, TAT-DQA의 훈련 세트에서 미세 조정되었고 해당 테스트 세트에서 평가되었습니다. 이는 매우 좁은 분포 내의 설정입니다. 논문에는 모델이 훈련 중에 본 적 없는 별도의 금융 QA 작업이 포함되어 있지 않으므로, 새로운 문서 유형이나 새로운 산술 패턴에 대한 일반화 능력은 입증되지 않았습니다.
4,096 토큰의 컨텍스트 제한은 실제 재무 보고서에 적용하기에는 실무적인 걸림돌입니다. 일반적인 10-K는 100페이지가 넘고, 단일 분기 실적 발표조차 종종 4,096 토큰을 초과합니다. 설명된 모델은 청킹(chunking) 없이는 설계된 입력을 처리할 수 없으며, 논문은 근거가 여러 청크에 걸쳐 있을 때 추출 성능이 어떻게 저하되는지에 대해 다루지 않습니다.
금융 AI에서 이것이 중요한 이유
추출기-추론기-실행기 분해는 Beancount 에이전트에 직접 적용 가능합니다. 사용자가 "2024년 1분기 대비 2025년 1분기 총 식비 지출은 얼마인가요?"라고 물을 때, 자연스러운 구조는 관련 거래를 찾고(추출), 집계 식을 만들고(추론), 이를 원장에 대해 실행(실행)하는 것입니다. TAT-LLM의 오류 분석은 구체적인 예측을 제공합니다. Beancount 에이전트가 가장 자주 실패하는 지점은 산술이 아니라, 잘못된 계정 과목 지정, 거래 누락, 금액 오독과 같은 추출 단계가 될 것입니다.
LoRA 미세 조정 방식은 Beancount 전용 모델을 구축하려는 누구에게나 유효합니다. 전문가가 주석을 단 QA 쌍을 가져와 중간 단계를 주석으로 추가하는 훈련 데이터 생성 전략은 원장 전용 추론 데이터셋을 구축하는 정확한 방법입니다. 이미 정답 원장 항목이 있으므로 (질문, 추출, 수식, 답변) 튜플을 자동으로 생성할 수 있습니다.
컨텍스트 제한이 가장 큰 장애물입니다. 프로덕션 수준의 Beancount 에이전트는 수년간의 항목을 추론해야 합니다. 논문의 모델은 그 자체로는 부족하며, 실무에 쓰이기 위해서는 청킹, 검색 또는 더 긴 컨텍스트 윈도우를 갖춘 단일 문서 QA의 강력한 베이스라인으로 확장되어야 합니다.
다음에 읽을 내용
- FinQA (arXiv:2109.00122, EMNLP 2021) — TAT-LLM이 평가된 원본 벤치마크로, 이를 읽으면 "금융 데이터에 대한 이산적 추론"이 정확히 무엇을 의미하는지, LLM 이전의 기존 SOTA가 어떠했는지 알 수 있습니다.
- TAGOP (TAT-QA 논문의 일부, arXiv:2105.07624, ACL 2021) — TAT-QA 작업을 정의한 표 인식 연산자 모델입니다. 규칙 기반 연산자 선택이 어떻게 이루어지는지 이해하면 LLM 기반 추론기 단계가 무엇을 대체하는 지 기준점을 얻을 수 있습니다.
- AuditCopilot (arXiv:2512.02726) — 실제 원장 데이터에 대한 분개장 테스트(Journal Entry Test) 이상 징후 탐지에서 LLaMA와 Gemma를 벤치마킹합니다. TAT-LLM 이후의 자연스러운 후속 질문은 동일한 미세 조정 방식이 QA가 아닌 이상 징후 탐지에도 전이될 수 있는지 여부입니다.
