WildToolBench: 실제 환경의 도구 사용에서 LLM의 세션 정확도가 15%를 넘지 못하는 이유
제가 추적해 온 BFCL, ToolBench, τ-bench와 같은 도구 사용(tool-use) 벤치마크들은 모두 공통적인 설계 결함을 공유하고 있습니다. 바로 벤치마크 저자들이 상상한 사용자의 행동을 바탕으로 과제를 구성한다는 점입니다. ICLR 2026에 채택된 WildToolBench는 실제 사용자 로그로 돌아가 사용자들이 실제로 무엇을 하는지 묻습니다. 그 대답은 겸허한 결과를 보여줍니다. 57개의 LLM을 평가한 결과, 세션 정확도가 15%를 초과하는 모델은 하나도 없었습니다.
논문 요약
알리바바의 Peijie Yu, Wei Liu, Yifan Yang 및 동료들은 실제 사용자 행동 패턴에서 추출되고 약 1,600개의 공용 API를 기반으로 한 1,024개의 작업과 256개의 멀티턴 대화 시나리오로 구성된 벤 치마크인 WildToolBench(arXiv:2604.06185)를 발표했습니다. 핵심 주장은 기존 벤치마크의 성능이 포화 상태에 이른 이유가 모델이 우수해서가 아니라 작업이 인위적이기 때문이라는 것입니다. 실제 사용자는 요청을 한데 묶어서 보내고, 두 턴 전에 공유한 맥락을 생략하며, 때로는 단일 메시지 내에서도 도구 관련 질문, 가벼운 대화, 설명 요청 사이를 전환합니다. WildToolBench는 이러한 실패 모드를 세 가지 구조화된 챌린지 카테고리로 구체화하고, 작업 수준의 정확도와 대화 내의 4개 작업을 모두 성공해야 하는 훨씬 더 엄격한 세션 수준 정확도를 측정합니다.
주요 내용
- 대부분의 모델에서 세션 정확도가 한 자릿수로 급락: Gemini-2.0-Flash-Thinking이 14.45%의 세션 정확도로 선두를 달리고 있으며, Claude-4-Sonnet은 12.50%, GPT-4o는 11.72%를 기록했습니다. 4턴 세션의 모든 작업을 통과하는 것은 매우 어렵기 때문에 60%의 작업 정확도조차 15% 미만의 세션 정확도로 이어집니다. 이는 모든 상호작용에 부과되는 복합 확률 세금과 같습니다.
- 구성적 오케스트레이션(Compositional orchestration)이 가장 큰 난관: 순차적 방식과 병렬 방식이 혼합된 도구 토폴로지는 상위 모델의 작업 정확도를 25%로 제한하는 반면, 순수 병렬 또는 순차 체인에서는 54~62%의 정확도를 보였습니다. 작업에 병렬 확장 후 순차 통합이 필요한 경우, 조정(coordination) 문제는 현재 어떤 모델도 안정적으로 처리할 수 있는 수준을 넘어섭니다.
- 숨겨진 의도(Hidden intent)는 이전에 측정한 것보다 더 큰 격차를 보임: WildToolBench는 작업의 100%에 암시적 또는 턴을 교차하는 정보가 포함되도록 보장하는 반면, BFCL v3는 15.7%에 불과합니다. 누락된 정보가 두 턴 이상 뒤에 있는 장기 의존성 작업은 가장 어려운 하위 유형으로, 작업 수준에서도 50%를 넘는 모델이 없었습니다.
- 지시어 전환(Instruction transitions)은 선형적으로 오류를 가중시킴: 정책 전환(도구 작업 → 채팅 → 확인 → 도구 작업)이 추가될 때마다 정확도가 약 5~15%포인트씩 떨어집니다. 세 번의 전환이 발생하면 가장 큰 영향을 받는 모델은 30포인트의 성능 하락을 보입니다. 저자들은 이를 "자기 조건화(self-conditioning)"라고 부르는데, 이전의 응답이 이후 지시어에 대한 모델의 해석에 편향을 주어 세션 도중에 수정하기 어렵게 만드는 현상을 의미합니다.
- 최적 경로 비율(Optimal Path Rate)은 43% 미만: 모델이 작업을 올바르게 완료하더라도 불필요하게 많은 API 호출을 소모합니다. Claude-4-Sonnet은 42.74%로 가장 우수한 최적 경로 비율을 기록했는데, 이는 올바른 결과물 중 과반수가 필요 이상의 단계를 거쳤음을 의미하며, 이는 실제 운영 시스템에서 지연 시간과 토큰 비용으로 직결됩니다.
- 특화된 도구 사용 모델이 범용 프론티어 모델보다 성능이 낮음: xLAM-2-70B와 ToolACE2-8B는 모두 잘못된 함수 이름을 호출하는 오류율이 30%를 초과하여 GPT-4o나 Claude-4-Sonnet보다 나쁜 성적을 거두었습니다. 좁은 범위의 도구 사용 말뭉치로 파인튜닝하는 것은 실제 사용자의 무작위적인 행동(wild behavior)으로 인한 분포 변화(distribution shift) 상황에서 견고함보다는 취약함을 만드는 것으로 보입니다.
유효한 점과 한계점
이 벤치마크 설계는 가장 중요한 지점에서 강력한 설득력을 갖습니다. 작업 정확도와 세션 정확도를 구분한 것은 매우 정확한 접근입니다. 복합적인 실패 유형이야말로 실제 배포 환경을 망치는 주범이며, 이전의 연구들은 이를 가리는 작업 수준의 수치만을 보고해 왔습니다. 세 가지 챌린지 분류(구성적 오케스트레이션, 숨겨진 의도, 지시어 전환)는 타당한 근거를 갖추고 있으며 실증적으로 입증되었습니다. 각 챌린지 유형에 따른 성능 저하 곡선은 실제적이고 인상적입니다.
약점은 규모입니다. 256개 시나리오에서 추출한 1,024개의 작업은 연구 결과물로서는 신뢰할 수 있지만, 시간이 지남에 따라 57개의 모델을 추적하려는 리더보드용으로는 부족해 보입니다. 저자들도 이 점을 직접 인정하며 향후 연구에서 자동화된 확장 파이프라인을 언급했습니다. 또 다른 문제는 "실제 사용자 로그 기반"이라는 표현이 상당히 가공되었다는 점입니다. 최종 작업은 시드 패턴에서 멀티 에이전트 시스템에 의해 부분적으로 합성되어 생성된 후 인간 어노테이터에 의해 검증되었습니다. 즉, 데이터가 실제 환경에서 그대로 가져온 것이 아니라 실제 환경에서 영감을 받은 것입니다. 이는 15%라는 천장을 얼마나 문자 그대로 해석해야 하는지에 영향을 미칩니다. 생성 파이프라인이 실제 사용자가 보이지 않는 인위적인 난이도를 도입했다면 격차의 일부는 줄어들 수 있습니다.
또한 지시어 전환 분석을 아키텍처 측면의 한계로 보는 주장에도 회의적입니다. 논문은 이를 근본적인 한계로 돌리지만, RLHF 파인튜닝 목표와 멀티모달 사용자 세션 간의 학습 분포 불일치가 더 타당한 설명일 수 있습니다. 이는 구조적인 문제가 아니라 해결 가능한 문제입니다.
금융 AI(Finance AI)에 중요한 이유
이 세 가지 실패 유형은 실제 사용자가 Beancount 쓰기 작업(write-back) 에이전트와 상호작용하는 방식과 거의 완벽하게 일치합니다. 사용자가 "지난달 식비로 얼마 썼지? 그리고 하는 김에 오늘 Whole Foods 영수증도 추가해줘"라고 묻는다면, 이는 한 턴에 묶인 구성적 작업입니다. 이어서 "방금 그거 42달러가 아니라 47.23달러로 수정해줘, 방금 확인했어"라고 말한다면, 이는 에이전트가 세션 상태를 추적해야 하는 매개변수 수정 작업입니다. 그런 다음 "그 카테고리가 맞아?"라고 묻는다면 이는 설명 요청이며, 에이전트는 방금 완료한 쓰기 작업을 다시 실행해서는 안 됩니다. 혼합 순차+병렬 오케스트레이션에서의 25% 한계와 지시어 전환으로 인한 30포인트 하락은 실제 사용자 세션을 처리하는 원장 관리 에이전트에서 그대로 나타날 실패 유형들입니다.
특화된 도구 사용 모델이 범용 프론티어 모델보다 성능이 떨어진다는 발견은 특히 시사하는 바가 큽니다. 비용 절감을 위해 Beancount 전용 도구 호출 예제로 더 작은 오픈 소스 모델을 파인튜닝하려 한다면, WildToolBench는 이러한 특화가 실제 사용자 행동 분포에 대한 견고함을 희생시킬 수 있다는 직접적인 경고를 보냅니다. 최적 경로 비율 결과도 중요합니다. 작업을 완료하기 위해 두 배의 API 호출을 사용하는 에이전트는 비효율적일 뿐만 아니라, 쓰기 작업의 경우 불필요한 중간 호출이 원장을 일관성 없는 중간 상태로 남길 위험이 있습니다.
다음 읽을거리
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — WildToolBench가 명시적으로 대조군으로 삼는 기초 학습 프레임워크입니다. 이 모델의 합성 평가 설계를 이해하면 실제 실행 환경이 무엇을 더해주는지 명확해집니다.
- τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (arXiv:2406.12045) — 현실적인 멀티턴 도구 사용에 관한 가장 유사한 선행 연구입니다. τ-bench의 소매/항공 도메인과 WildToolBench의 공용 API 범위를 비교해 보면 과제가 얼마나 일반화되는지 알 수 있습니다.
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — 지시어 전환 문제가 학습 데이터 확장보다는 더 나은 에이전트 워크플로우를 자동 발견함으로써 해결될 수 있다면, AFlow는 이를 수행하는 가장 신뢰할 만한 메커니즘입니다.
