4 publicações com a etiqueta "Fintech"

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking de Agentes de LLM para Uso de Ferramentas Financeiras no Mundo Real sob MCP

O FinMCP-Bench avalia seis modelos de LLM em 613 tarefas reais de uso de ferramentas financeiras apoiadas por 65 servidores MCP — o melhor modelo obtém 3,08% de correspondência exata em tarefas multiturno, revelando um colapso de desempenho de 20 vezes de cenários de ferramenta única para multiturno.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras

O FinTrace avalia 13 LLMs em 800 trajetórias de tarefas financeiras anotadas por especialistas em 9 métricas, revelando que modelos de fronteira alcançam uma forte seleção de ferramentas (F1 ~0,9), mas pontuam apenas 3,23/5 na utilização de informações — a etapa em que os agentes raciocinam sobre o que as ferramentas retornam.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT e os Limites de LLMs de Domínio Específico em Finanças

A Bloomberg treinou um LLM de 50 bilhões de parâmetros em 569 bilhões de tokens de dados financeiros e superou modelos gerais em benchmarks de sentimento e raciocínio de tabelas — então o GPT-4 o igualou sem qualquer pré-treinamento específico para finanças. O que o experimento de US$ 10 milhões revela sobre os trade-offs de pré-treinamento de domínio, a tokenização de números e por que o uso de ferramentas é mais confiável do que os componentes internos do modelo para agentes de contabilidade.

Tudo Sobre Fintech

FinMCP-Bench: Benchmarking de Agentes de LLM para Uso de Ferramentas Financeiras no Mundo Real sob MCP

FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

BloombergGPT e os Limites de LLMs de Domínio Específico em Finanças

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico