FinMCP-Bench: MCP 기반 실제 금융 도구 사용을 위한 LLM 에이전트 벤치마킹
FinMCP-Bench는 65개의 MCP 서버를 기반으로 하는 613개의 실제 금융 도구 사용 작업에서 6개의 LLM 모델을 평가합니다. 가장 우수한 모델도 멀티턴 작업에서 3.08%의 완전 일치(exact match) 점수를 기록하여, 단일 도구 사용 대비 멀티턴 시나리오에서 성능이 20배 하락함을 보여줍니다.
FinMCP-Bench는 65개의 MCP 서버를 기반으로 하는 613개의 실제 금융 도구 사용 작업에서 6개의 LLM 모델을 평가합니다. 가장 우수한 모델도 멀티턴 작업에서 3.08%의 완전 일치(exact match) 점수를 기록하여, 단일 도구 사용 대비 멀티턴 시나리오에서 성능이 20배 하락함을 보여줍니다.
FinTrace는 9가지 지표를 통해 800개의 전문가 주석이 달린 금융 작업 궤적에서 13개의 LLM을 벤치마킹했습니다. 그 결과, 프런티어 모델들은 강력한 도구 선택 능력(F1 ~0.9)을 달성했지만, 에이전트가 도구의 반환 값을 추론하는 단계인 '정보 활용' 점수에서는 5점 만점에 3.23점에 그쳤습니다.
FinToolBench는 760개의 실시간 금융 API 도구와 295개의 실행 가능한 쿼리를 결합하여 실제 금융 작업에 대한 LLM 에이전트를 벤치마킹합니다. GPT-4o의 보수적인 22.7% 호출률이 Qwen3-8B의 공격적인 87.1% TIR보다 높은 답변 품질(CSS 0.670)을 제공하는 반면, 의도 불일치(intent mismatch)는 모든 테스트 모델에서 50%를 초과하는 것으로 나타났습니다.
Bloomberg는 5,690억 개의 금융 데이터 토큰으로 500억 개의 파라미터를 가진 LLM을 학습시켜 감성 분석 및 표 추론 벤치마크에서 일반 모델을 압도했습니다. 그러나 이후 GPT-4가 금융 특화 사전 학습 없이도 이 성능을 따라잡았습니다. 1,000만 달러 규모의 이 실험이 도메인 사전 학습의 트레이드오프, 숫자의 토큰화, 그리고 왜 회계 에이전트에게 모델 내부 정보보다 도구 사용 기능이 더 신뢰할 수 있는지를 보여주는 바를 살펴봅니다.