FinTrace: 금융 작업을 위한 LLM 도구 호출의 궤적 수준 평가
FinTrace(arXiv:2604.10015)는 지난번에 기록했던 FinToolBench가 발표된 지 일주일 만에 등장했으며, 이 두 논문은 서로 직접적인 대화를 주고받고 있습니다. FinToolBench가 에이전트가 올바른 도구를 호출하는지를 측정한다면, FinTrace는 더 어려운 질문을 던집니다. 즉, 에이전트가 올바른 도구를 호출하더라도 실제로 그 결과를 바탕으로 추론을 수행하는가 하는 점입니다. 이 차이가 논문의 핵심이며, 제가 생각하기에는 Beancount 쓰기 작업(write-back) 에이전트 문제 전체의 핵심이기도 합니다.
논문 요약
Cao 등은 쉬움, 중간, 어려움의 세 가지 난이도 계층에 걸쳐 34개의 실제 금융 작업 카테고리를 아우르는 800개의 전문가 주석 궤적 벤치마크인 FinTrace를 소개합니다. 저자들은 네 가지 축을 따라 구성된 9가지 지표 루브릭을 중심으로 평가를 구축했습니다. 네 가지 축은 행동 정확도(도구 호출 F1, 작업 관련성), 실행 효율성(단계 효율성, 중복성 점수), 과정 품질(논리적 전개, 정보 활용, 진행 점수), 그리고 출력 품질(작업 통과율, 최종 답변 품질)입니다. 이들은 13개의 LLM을 평가하고, 미세 조정을 위해 엄선된 8,196개의 선호 궤적 데이터셋인 FinTrace-Training도 공개했습니다.
주요 주장은 프런티어 모델들이 도구 선택은 마스터했지만, 도구가 반환한 내용을 사용하는 더 어려운 단계에서는 체계적으로 실패한다는 것입니다. 벤치마크는 정보 활용, 논리적 전개, 진행 점수에 대해 5점 척도로 이를 조사하며, 도구 F1 및 단계 효율성에 대한 알고리즘 지표를 함께 사용합니다.
핵심 아이디어
- 최고 성능 모델인 Claude-Opus-4.6은 도구 호출 F1 0.896을 달성하여 강력한 선택 능력을 보여주었지만, 출력 관련 4가지 지표 중 가장 취약한 '정보 활용'에서는 5점 만점에 3.23점에 그쳤습니다.
- Claude-Opus-4.6의 작업 통과율은 2.65/5, 최종 답변 품질은 3.34/5입니다. 최고 모델조차도 일관되게 정확하고 완전한 답변을 생성하지 못합니다.
- Qwen-3.5-9B는 특이한 패턴을 보입니다. 도구를 거의 호출하지 않기 때문에 단계 효율성(1.000)과 중복성(1.000)은 완벽에 가깝지만, 이는 도구 호출 F1 0.109에 반영된 결과입니다. 효율적이지만 쓸모가 없습니다.
- FinTrace-Training으로 학습하면 중간 과정 지표가 개선되지만(DPO를 통해 논리적 전개가 2.29에서 2.56으로, 진행 점수가 2.00에서 2.30으로 상승), 최종 답변 품질은 병목 현상에 갇혀 있습니다. 소형 모델의 경우 어떤 변형도 1~5점 척도에서 평균 1.21을 크게 넘지 못했습니다.
- DPO는 치명적인 실패 모드를 억제하는 데 있어 SFT보다 우수한 성능을 보였습니다. 논리적 전개 점수가 1점인 비율이 11.9%(SFT)에서 9.5%(DPO)로 감소했습니다.
- 13개 모델 전체에서 보편적으로 가장 낮은 점수를 기록한 하위 카테고리는 '추론 QA(Reasoning QA)'였습니다. 여기서 Claude-Opus-4.6은 종합 점수 0.62만을 기록했으며, 이는 가장 강력한 프런티어 모델조차 공유하는 높은 벽입니다.
유효한 점과 그렇지 않은 점
도구 선택과 도구 추론이 분리 가능하다는 핵심 발견은 충분히 근거가 있으며, 네 가지 축의 루브릭은 진정한 기여라고 볼 수 있습니다. FinToolBench와 같은 이전 벤치마크는 실행 추적에서 멈췄지만, FinTrace는 그 사이에서 벌어지는 일을 드러내는 LLM 판단 과정 품질 지표를 추가했습니다. 100개 샘플 검증에서 얻은 평가자 간 일치도(Cohen's κ) 0.89는 LLM 판단에 부분적으로 의존하는 벤치마크치고는 고무적입니다.
그럼에도 불구하고 몇 가지 방법론적 선택으로 인해 수치 그대로를 받아들이기 어려운 면이 있습니다. 34개의 작업 카테고리가 본문에 열거되지 않고 부록 B로 미뤄져 있어, 이것이 실 제 금융 실무를 얼마나 대표하는지 알 수 없습니다. 난이도 계층은 벤치마크 자체의 쿼리 풀 내 백분위수 순위로 정의되는데, 이는 순환 논리적 측정입니다. '어렵다'는 것은 다른 800개 궤적에 비해 특이하다는 뜻일 뿐, 절대적인 의미에서 어렵다는 것이 아닐 수 있습니다.
미세 조정 분석도 아쉽습니다. FinTrace-Training으로 9B 모델을 학습시키면 중간 추론은 개선되지만 최종 답변 품질은 여전히 망가진 상태입니다. 논문은 이를 과정과 출력 사이의 "단절" 탓으로 돌리지만, 그 이유는 설명하지 않습니다. 9B 모델이 궤적의 품질과 관계없이 금융 작업에 필요한 사실 회상 및 산술 능력이 부족하다는 가장 그럴듯한 설명은 다뤄지지 않았습니다. 또한 DPO 결과를 Qwen-3.5-9B에 대해서만 보여주었기에 더 큰 모델이 더 많은 이득을 얻을 수 있는지는 알 수 없습니다.
전체 점수 집계 방식에 대해서도 회의적입니다. 알고리즘 지표(F1 ∈ [0,1])와 1~5점 리커트 척도의 LLM 판단 점수를 [0,1]로 정규화하여 평균을 내는 방식은 매우 다른 유형의 실패를 혼합합니다. 도구를 완전히 잘못 호출하는 모델과 올바른 도구를 호출한 뒤 그 출력을 무시하는 모델은 결코 같은 방식으로 고장 난 것이 아닙니다.
금융 AI에서 이것이 중요한 이유
이 핵심 발견은 Beancount 쓰기 작업 문제와 직결됩니다. Beancount CLI 도구는 안정적으로 호출하지만 그 출력을 오해하는 에이전트(예: 재 무상태표 응답을 파싱하여 잘못된 계정에 기입하는 경우)는 자동화가 없는 것보다 위험합니다. 일반 검토자에게는 올바른 것처럼 보이는, 확신에 찬 잘못된 장부 항목을 생성하기 때문입니다.
'정보 활용' 지표는 모든 Beancount 에이전트에서 가장 주의 깊게 살펴봐야 할 지표입니다. 통제된 금융 벤치마크에서 현재 사용 가능한 최고의 모델이 이 항목에서 3.23/5점을 기록했다는 사실은 실제 배포 환경에서 강력한 제약 조건이 되어야 합니다. 이는 해당 점수가 일관되게 4.0 이상으로 올라가기 전까지는 모든 쓰기 작업에 대해 반드시 인간의 검토가 필요함을 시사합니다.
또한 FinTrace는 지난주 ReDAct가 제안한 내용을 확인해 줍니다. 즉, 올바른 아키텍처는 엔드투엔드 LLM 추론이 아니라 검증을 외부화하는 파이프라인이라는 점입니다. 도구를 잘 선택하고(도구 F1 ~0.9), 실행하기 전에 결과를 별도의 검증 단계로 넘기는 에이전트가 단일 패스로 원시 도구 출력을 추론하려는 에이전트보다 훨씬 더 방어 가능한 구조입니다.
다음에 읽을거리
- FinMCP-Bench (arXiv:2603.24943): MCP를 도구 인터페이스 표준으로 사용하는 후속 논문으로, 읽기 목록의 다음 순서입니다. FinTrace와 직접 비교 가능하지만 다른 프로토콜 레이어에서 구축되었습니다.
- "Benchmarking LLM Tool-Use in the Wild" (arXiv:2604.06185): 동시에 발표되었으며 금융 이외의 도구 호출을 평가합니다. 정보 활용의 격차가 도메인 특화적인지 아니면 일반 적인 현상인지 명확히 해줄 것입니다.
- "Data-Driven Function Calling Improvements in Large Language Model for Online Financial QA" (arXiv:2604.05387): 학습 데이터 관점에서 동일한 도구 호출 실패 모드를 목표로 하며, FinTrace-Training의 DPO가 놓치고 있는 부분을 설명해 줄 수 있습니다.
