FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real
A maioria dos benchmarks de IA financeira testa se um modelo consegue ler um documento. O FinToolBench testa se um modelo consegue fazer algo — chamar uma API real, obter dados de mercado atuais e retornar uma resposta correta. Essa é a lacuna que importa para qualquer sistema que tente automatizar o trabalho financeiro real, e é a lacuna que eu esperava que alguém preenchesse com rigor.
O artigo
Jiaxuan Lu e colegas apresentam o FinToolBench (arXiv:2603.08262, março de 2026) como o que afirmam ser o primeiro benchmark executável do mundo real para avaliar agentes de aprendizado de ferramentas financeiras. O enquadramento é direto: as avaliações de IA financeira existentes concentram-se em QA estático sobre documentos, enquanto os benchmarks gerais de uso de ferramentas, como o ToolLLM, tratam as finanças como apenas mais uma categoria de API sem restrições de conformidade específicas do domínio. O FinToolBench tenta preencher o espaço entre esses dois modos de falha.
O benchmark combina 760 ferramentas financeiras executáveis — 261 endpoints reais da RapidAPI e 499 interfaces do AkShare — com 295 consultas de avaliação rigorosamente selecionadas, divididas em 166 casos de ferramenta única e 129 de múltiplas ferramentas. As ferramentas abrangem os domínios de ações, títulos, fundos, câmbio (forex), derivativos, macro e cripto. Crucialmente, estas são APIs reais e chamáveis, não stubs simulados. Os autores também apresentam o FATR (Finance-Aware Tool Routing), um agente base que utiliza recuperação BGE-M3 (top-20 candidatos), cartões de ferramentas anotados com atributos financeiros e um planejador ReAct ciente de restrições limitado a cinco etapas.
Ideias principais
- A execução não é o gargalo — o raciocínio sobre os resultados é. O GPT-4o possui a maior Pontuação Suave Condicional (CSS = 0,670), o que significa que fornece respostas corretas quando consegue chamar uma ferramenta com sucesso, mas invoca ferramentas apenas 22,7% das vezes (TIR = 0,227). O Qwen3-8B chama ferramentas 87,1% das vezes, mas obtém a resposta correta apenas 40,4% das vezes quando tem sucesso.
- O desajuste de intenção é a falha de conformidade dominante. A IMR (Taxa de Desajuste de Intenção) excede 50% na maioria dos modelos, o que significa que os agentes rotineiramente emitem chamadas com intenção transacional quando a consulta solicita apenas uma busca informativa. Isso é um problema sério em contextos financeiros regulamentados.
- A injeção de atributos financeiros ajuda na conformidade sem prejudicar a capacidade. Os cartões de ferramentas do agente FATR — anotando cada ferramenta com tempestividade, tipo de intenção e domínio regulatório — reduzem chamadas de dados obsoletos (TMR) e violações de domínio (DMR) sem degradar significativamente a taxa de invocação.
- Consultas multiferramentas expõem a lacuna de confiabilidade. As 129 consultas multiferramentas exigem o encadeamento de chamadas e a passagem de resultados entre etapas; o desempenho cai substancialmente em comparação com os casos de ferramenta única, de forma consistente com as descobertas do FinTrace e TheAgentCompany.
- Modelos pequenos podem superar os grandes em invocação, mas não em raciocínio. A TIR de 0,871 do Qwen3-8B contra 0,227 do GPT-4o mostra que os modelos menores são mais "precipitados", mas a CER (Taxa de Execução Condicional, ou seja, TESR/TIR) de 0,339 para o Qwen3-8B contra 0,618 para o GPT-4o revela que o GPT-4o é muito mais preciso quando decide chamar uma ferramenta.
O que se sustenta — e o que não
A escolha do benchmark de usar APIs genuinamente reais e executáveis é sua principal contribuição, e é uma contribuição real. APIs simuladas têm sido o segredo sujo dos benchmarks de uso de ferramentas: as 16.000 APIs do ToolLLM parecem impressionantes até você perceber que a avaliação usa um LLM como juiz de se uma chamada "teria" funcionado. O FinToolBench evita isso.
As métricas de conformidade (TMR, IMR, DMR) estão conceitualmente corretas — agentes financeiros precisam saber a diferença entre buscar o preço de fechamento de ontem e iniciar uma negociação — mas a descrição do artigo sobre como essas classificações são aplicadas é rasa. Não está claro se os rótulos de verdade fundamental para o tipo de intenção (informativa vs. transacional) foram verificados por especialistas jurídicos ou de conformidade, ou simplesmente atribuídos pelos autores do conjunto de dados. Isso importa muito na prática.
A lista de modelos também é estranhamente restrita: Doubao-Seed-1.6, Qwen3-8B, GLM-4.7-Flash e GPT-4o. Nenhum Claude Sonnet ou Gemini 2.5, que teriam sido comparações naturais. A tabela de resultados mostra que o GPT-4o é um ponto fora da curva de precisão com baixa cobertura; eu gostaria de saber se o comportamento de uso de ferramentas do Claude se aproxima do padrão conservador do GPT-4o ou do agressivo do Qwen3-8B.
O conjunto de avaliação de 295 consultas é pequeno para os padrões dos benchmarks modernos. Com 760 ferramentas, uma taxa de cobertura de 295 consultas significa que a maioria das ferramentas nunca é testada. O artigo não relata estatísticas de cobertura por domínio, o que significa que os números principais podem ser impulsionados por um subconjunto de domínios bem cobertos, como ações e macro.
Por que isso importa para a IA financeira
Agentes de gravação (write-back) do Beancount — qualquer agente que chame bean-add, aplique patches em um arquivo de livro-razão ou consulte o beanquery — enfrentam exatamente os modos de falha que o FinToolBench revela. O problema do desajuste de intenção se traduz diretamente: um agente Beancount que emite uma chamada de gravação quando o usuário fez uma pergunta de leitura tem a mesma assinatura de falha que uma violação de IMR. A dimensão da tempestividade mapeia para o problema de chamar um estado de livro-razão em cache obsoleto quando o usuário espera o saldo atual.
A tensão entre precisão e cobertura (GPT-4o vs Qwen3-8B) também é diretamente relevante. Para gravação no Beancount, eu preferiria muito mais o comportamento de chamada conservador do GPT-4o — TIR baixa, mas CER e CSS altos — do que um modelo de alta invocação que executa frequentemente a ferramenta errada. Gravações falsas são muito mais caras do que operações nulas (no-ops).
A abordagem FATR de anotar ferramentas com atributos de conformidade em vez de confiar no modelo para inferi-los é um padrão de design que vale a pena adotar. Envolver as ferramentas CLI do Beancount com metadados explícitos sobre se uma chamada é apenas de leitura ou de mutação, e se ela toca no estado atual ou arquivado do livro-razão, é a mesma ideia aplicada a um escopo menor.
O que ler a seguir
- FinTrace (arXiv:2604.10015) — avaliação em nível de trajetória em 34 categorias de tarefas financeiras com 9 métricas; estende diretamente a avaliação de chamada única do FinToolBench para sequências de múltiplas etapas e ajusta o Qwen-3.5-9B com DPO para melhorar o raciocínio intermediário.
- FinMCP-Bench (arXiv:2603.24943) — 613 amostras sobre 65 ferramentas financeiras baseadas em MCP, testando invocação de ferramenta única, multiferramenta e de múltiplos turnos; o enquadramento MCP é diretamente relevante para as interfaces de ferramentas do Beancount.
- ToolLLM (arXiv:2307.16789, ICLR 2024) — o artigo do ToolBench contra o qual o FinToolBench se posiciona explicitamente; entender o que a base de APIs simuladas pode e não pode medir esclarece o quanto a executabilidade do FinToolBench realmente agrega.
