O FinMCP-Bench avalia seis modelos de LLM em 613 tarefas reais de uso de ferramentas financeiras apoiadas por 65 servidores MCP — o melhor modelo obtém 3,08% de correspondência exata em tarefas multiturno, revelando um colapso de desempenho de 20 vezes de cenários de ferramenta única para multiturno.
O FinTrace avalia 13 LLMs em 800 trajetórias de tarefas financeiras anotadas por especialistas em 9 métricas, revelando que modelos de fronteira alcançam uma forte seleção de ferramentas (F1 ~0,9), mas pontuam apenas 3,23/5 na utilização de informações — a etapa em que os agentes raciocinam sobre o que as ferramentas retornam.
O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.
A Bloomberg treinou um LLM de 50 bilhões de parâmetros em 569 bilhões de tokens de dados financeiros e superou modelos gerais em benchmarks de sentimento e raciocínio de tabelas — então o GPT-4 o igualou sem qualquer pré-treinamento específico para finanças. O que o experimento de US$ 10 milhões revela sobre os trade-offs de pré-treinamento de domínio, a tokenização de números e por que o uso de ferramentas é mais confiável do que os componentes internos do modelo para agentes de contabilidade.