본문으로 건너뛰기
Fintech

모든 것에 대하여 Fintech

4개의 기사
Financial technology research, platforms, and infrastructure for modern accounting systems

FinMCP-Bench: MCP 기반 실제 금융 도구 사용을 위한 LLM 에이전트 벤치마킹

FinMCP-Bench는 65개의 MCP 서버를 기반으로 하는 613개의 실제 금융 도구 사용 작업에서 6개의 LLM 모델을 평가합니다. 가장 우수한 모델도 멀티턴 작업에서 3.08%의 완전 일치(exact match) 점수를 기록하여, 단일 도구 사용 대비 멀티턴 시나리오에서 성능이 20배 하락함을 보여줍니다.

FinTrace: 금융 작업을 위한 LLM 도구 호출의 궤적 수준 평가

FinTrace는 9가지 지표를 통해 800개의 전문가 주석이 달린 금융 작업 궤적에서 13개의 LLM을 벤치마킹했습니다. 그 결과, 프런티어 모델들은 강력한 도구 선택 능력(F1 ~0.9)을 달성했지만, 에이전트가 도구의 반환 값을 추론하는 단계인 '정보 활용' 점수에서는 5점 만점에 3.23점에 그쳤습니다.

FinToolBench: 실제 금융 도구 사용에 대한 LLM 에이전트 평가

FinToolBench는 760개의 실시간 금융 API 도구와 295개의 실행 가능한 쿼리를 결합하여 실제 금융 작업에 대한 LLM 에이전트를 벤치마킹합니다. GPT-4o의 보수적인 22.7% 호출률이 Qwen3-8B의 공격적인 87.1% TIR보다 높은 답변 품질(CSS 0.670)을 제공하는 반면, 의도 불일치(intent mismatch)는 모든 테스트 모델에서 50%를 초과하는 것으로 나타났습니다.

BloombergGPT와 금융 도메인 특화 LLM의 한계

Bloomberg는 5,690억 개의 금융 데이터 토큰으로 500억 개의 파라미터를 가진 LLM을 학습시켜 감성 분석 및 표 추론 벤치마크에서 일반 모델을 압도했습니다. 그러나 이후 GPT-4가 금융 특화 사전 학습 없이도 이 성능을 따라잡았습니다. 1,000만 달러 규모의 이 실험이 도메인 사전 학습의 트레이드오프, 숫자의 토큰화, 그리고 왜 회계 에이전트에게 모델 내부 정보보다 도구 사용 기능이 더 신뢰할 수 있는지를 보여주는 바를 살펴봅니다.