WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real

10 de julho de 2026 · 7 min para ler

Mike Thrift

Marketing Manager

Os benchmarks de uso de ferramentas que venho acompanhando — BFCL, ToolBench, τ-bench — todos compartilham uma falha de design comum: eles constroem tarefas a partir da imaginação dos autores do benchmark sobre o que os usuários fazem. O WildToolBench, aceito no ICLR 2026, volta aos logs de usuários reais e pergunta o que os usuários realmente fazem. A resposta é humilhante: 57 LLMs avaliados, zero excedem 15% de acurácia de sessão.

O artigo

2026-07-10-wildtoolbench-benchmarking-llm-tool-use-in-the-wild

Peijie Yu, Wei Liu, Yifan Yang e colegas do Alibaba apresentam o WildToolBench (arXiv:2604.06185), um benchmark de 256 cenários de diálogo multiturno com 1.024 tarefas extraídas de padrões autênticos de comportamento do usuário e baseadas em cerca de 1.600 APIs públicas. O argumento central é que os benchmarks existentes estão saturando não porque os modelos são bons, mas porque as tarefas são artificiais. Usuários reais agrupam solicitações, omitem o contexto compartilhado dois turnos atrás e alternam entre fazer uma pergunta sobre ferramenta, conversa fiada e pedido de esclarecimento — às vezes em uma única mensagem. O WildToolBench operacionaliza esses modos de falha em três categorias de desafio estruturadas e mede tanto a acurácia no nível da tarefa quanto a acurácia muito mais rigorosa no nível da sessão, que exige sucesso em todas as quatro tarefas de um diálogo.

Ideias-chave

A acurácia de sessão entra em colapso para dígitos únicos na maioria dos modelos: Gemini-2.0-Flash-Thinking lidera com 14,45% de acurácia de sessão, Claude-4-Sonnet com 12,50%, GPT-4o com 11,72%. Passar por todas as tarefas em uma sessão de quatro turnos é difícil o suficiente para que até mesmo 60% de acurácia de tarefa se traduza em menos de 15% de acurácia de sessão — um imposto de probabilidade composta sobre cada interação.
A orquestração composicional é o penhasco mais íngreme: Topologias de ferramentas mistas (sequencial mais paralelo) limitam os modelos de ponta a 25% de acurácia de tarefa, contra 54–62% para cadeias puramente paralelas ou sequenciais. Quando uma tarefa exige um desdobramento paralelo seguido por uma fusão sequencial, o problema de coordenação excede o que qualquer modelo atual lida de forma confiável.
A intenção oculta é uma lacuna maior do que qualquer outra medida anteriormente: O WildToolBench garante que 100% das tarefas envolvam informações implícitas ou entre turnos; o BFCL v3 alcança apenas 15,7%. Tarefas de dependência de longo alcance — onde a informação ausente está há mais de dois turnos — são o subtipo mais difícil, com nenhum modelo ultrapassando 50%, mesmo no nível da tarefa.
As transições de instrução compõem erros a uma taxa linear: Cada troca de política adicional (tarefa de ferramenta → chat → esclarecimento → tarefa de ferramenta) reduz a acurácia em aproximadamente 5 a 15 pontos percentuais. Com três transições, os modelos mais afetados perdem 30 pontos. Os autores chamam isso de "autocondicionamento": respostas anteriores enviesam a interpretação do modelo das instruções subsequentes de formas difíceis de corrigir no meio da sessão.
A Taxa de Caminho Ideal (Optimal Path Rate) permanece abaixo de 43%: Mesmo quando os modelos concluem as tarefas corretamente, eles desperdiçam chamadas de API em excesso. O Claude-4-Sonnet atinge a melhor Taxa de Caminho Ideal com 42,74%, o que significa que a maioria das conclusões corretas leva mais passos do que o necessário — um custo direto em latência e tokens para qualquer sistema de produção.
Modelos especializados no uso de ferramentas apresentam desempenho inferior aos modelos generalistas de fronteira: xLAM-2-70B e ToolACE2-8B apresentam taxas de erro de nome de função incorreto superiores a 30%, pior do que GPT-4o ou Claude-4-Sonnet. O ajuste fino em corpora estreitos de uso de ferramentas parece criar fragilidade em vez de robustez sob mudança de distribuição para comportamentos de usuários reais.

O que se sustenta — e o que não

O design do benchmark é robusto onde mais importa. A distinção entre acurácia de tarefa e acurácia de sessão está corretíssima: a composição de modos de falha é o que mata implementações reais, e a maioria dos trabalhos anteriores relata números no nível da tarefa que mascaram isso. A taxonomia de três desafios (orquestração composicional, intenção oculta, transições de instrução) é bem fundamentada e comprovada empiricamente — as curvas de degradação de desempenho entre os tipos de desafio são reais e impressionantes.

O ponto fraco é a escala. 1.024 tarefas de 256 cenários é um artefato de pesquisa credível, mas escasso para um ranking destinado a acompanhar 57 modelos ao longo do tempo. Os autores reconhecem isso diretamente e mencionam um pipeline de escalonamento automatizado em trabalhos futuros. Outro problema é que "baseado em logs de usuários reais" carrega muita responsabilidade: as tarefas finais são parcialmente sintéticas, construídas por um sistema multiagente a partir de padrões semente e depois verificadas por anotadores humanos. A alegação é fundamentada, mas os dados não são puramente selvagens — são inspirados no real. Isso importa para quão literalmente se interpreta o teto de 15%; uma fração da lacuna pode fechar se o pipeline de geração introduzir dificuldades artificiais que os usuários reais não exibem de fato.

Também sou cético quanto à análise de transição de instrução como uma alegação arquitetônica. O artigo a atribui a uma limitação fundamental, mas o descompasso na distribuição de treinamento entre os objetivos de ajuste fino via RLHF e as sessões de usuários multimodais é a explicação mais simples. Isso é endereçável, não estrutural.

Por que isso importa para a IA financeira

Os três modos de falha mapeiam quase perfeitamente a forma como usuários reais interagem com um agente de escrita (write-back) do Beancount. Um usuário pergunta "quanto gastei em supermercado no mês passado e, aproveitando, adicione o recibo do Whole Foods de hoje" — essa é uma tarefa composicional agrupada em um único turno. Eles seguem com "na verdade, considere $47,23 em vez de $42, eu conferi" — essa é uma correção de parâmetro que exige que o agente acompanhe o estado da sessão. Então perguntam "essa categoria está correta?" — esse é um pedido de esclarecimento, e o agente precisa não reexecutar a operação de escrita que acabou de concluir. O limite de 25% na orquestração mista sequencial-paralela e a queda de 30 pontos nas transições de instrução são exatamente os modos de falha que se manifestariam em um agente de livro contábil lidando com sessões de usuários reais.

A descoberta de que modelos especializados no uso de ferramentas têm desempenho inferior aos modelos generalistas de fronteira é particularmente relevante. Se estivéssemos considerando o ajuste fino de um modelo aberto menor em exemplos específicos de chamada de ferramentas do Beancount — a jogada óbvia de redução de custos — o WildToolBench é um aviso direto de que a especialização pode sacrificar a robustez frente à distribuição do comportamento real do usuário. A descoberta sobre a Taxa de Caminho Ideal também importa: um agente que usa o dobro de chamadas de API para concluir uma tarefa não é apenas ineficiente; para operações de escrita, chamadas intermediárias redundantes podem deixar o livro contábil em estados intermediários inconsistentes.

O que ler a seguir

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — o framework de treinamento fundamental contra o qual o WildToolBench se posiciona explicitamente; entender seu design de avaliação sintética esclarece exatamente o que a execução em tempo real adiciona.
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (arXiv:2406.12045) — o trabalho anterior mais próximo sobre o uso realista de ferramentas multiturno; comparar os domínios de varejo/companhias aéreas do τ-bench com a cobertura de APIs públicas do WildToolBench mostra o quanto o desafio se generaliza.
AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — se o problema da transição de instrução for endereçável pela descoberta automática de melhores fluxos de trabalho de agentes, em vez de escalar dados de treinamento, o AFlow é o mecanismo mais plausível para isso.

Share on Twitter Follow @beancount_io

WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real

O artigo

Ideias-chave

O que se sustenta — e o que não

Por que isso importa para a IA financeira

O que ler a seguir

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico

O artigo​

Ideias-chave​

O que se sustenta — e o que não​

Por que isso importa para a IA financeira​

O que ler a seguir​

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico

O artigo

Ideias-chave

O que se sustenta — e o que não

Por que isso importa para a IA financeira

O que ler a seguir