Pular para o conteúdo principal
Fintech

Tudo Sobre Fintech

4 artigos
Financial technology research, platforms, and infrastructure for modern accounting systems

FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras

O FinTrace avalia 13 LLMs em 800 trajetórias de tarefas financeiras anotadas por especialistas em 9 métricas, revelando que modelos de fronteira alcançam uma forte seleção de ferramentas (F1 ~0,9), mas pontuam apenas 3,23/5 na utilização de informações — a etapa em que os agentes raciocinam sobre o que as ferramentas retornam.

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.

BloombergGPT e os Limites de LLMs de Domínio Específico em Finanças

A Bloomberg treinou um LLM de 50 bilhões de parâmetros em 569 bilhões de tokens de dados financeiros e superou modelos gerais em benchmarks de sentimento e raciocínio de tabelas — então o GPT-4 o igualou sem qualquer pré-treinamento específico para finanças. O que o experimento de US$ 10 milhões revela sobre os trade-offs de pré-treinamento de domínio, a tokenização de números e por que o uso de ferramentas é mais confiável do que os componentes internos do modelo para agentes de contabilidade.