Mike Thrift
Marketing Manager
FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro
O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.
Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna
O EnterpriseArena submete 11 LLMs a uma simulação de CFO de 132 meses, monitorando sobrevivência, avaliação terminal e taxas de fechamento de livros. Apenas o Qwen3.5-9B sobrevive a 80% das execuções; GPT-5.4 e DeepSeek-V3.1 chegam a 0%. Especialistas humanos alcançam 100% de sobrevivência com 5x o valor terminal. O gargalo crítico é que as LLMs ignoram a reconciliação do razão 80% das vezes, agindo com base em estados financeiros obsoletos.
WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real
O WildToolBench (ICLR 2026) avalia 57 LLMs em 1.024 tarefas extraídas do comportamento real do usuário — nenhum modelo excede 15% de acurácia de sessão, com a orquestração composicional, intenção oculta e transições de instrução como os três modos de falha mais acentuados.
Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra
Um levantamento sistemático de métodos de estimativa de confiança e calibração de LLMs — abordagens de logit white-box, SelfCheckGPT baseado em consistência e entropia semântica — revela que as pontuações de confiança verbalizadas do GPT-4 atingem apenas ~62,7% de AUROC, pouco acima do acaso, com implicações diretas para a implantação de agentes cientes de incerteza em finanças e contabilidade.
JSONSchemaBench: Complexidade de Esquemas do Mundo Real Quebra Garantias de Saída Estruturada de LLMs
O JSONSchemaBench testa 9.558 esquemas JSON do mundo real contra seis frameworks de decodificação restrita e descobre que a complexidade do esquema faz com que a cobertura desmorone de 86% em esquemas simples para 3% em esquemas complexos, com o XGrammar emitindo silenciosamente 38 saídas não conformes e nenhum framework cobrindo todas as 45 categorias de recursos do JSON Schema.
FinMCP-Bench: Benchmarking de Agentes de LLM para Uso de Ferramentas Financeiras no Mundo Real sob MCP
O FinMCP-Bench avalia seis modelos de LLM em 613 tarefas reais de uso de ferramentas financeiras apoiadas por 65 servidores MCP — o melhor modelo obtém 3,08% de correspondência exata em tarefas multiturno, revelando um colapso de desempenho de 20 vezes de cenários de ferramenta única para multiturno.
FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras
O FinTrace avalia 13 LLMs em 800 trajetórias de tarefas financeiras anotadas por especialistas em 9 métricas, revelando que modelos de fronteira alcançam uma forte seleção de ferramentas (F1 ~0,9), mas pontuam apenas 3,23/5 na utilização de informações — a etapa em que os agentes raciocinam sobre o que as ferramentas retornam.
FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real
O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.
OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro
O OmniEval (EMNLP 2025) avalia sistemas RAG em 5 tipos de tarefas × 16 tópicos financeiros usando 11,4 mil casos de teste gerados automaticamente. Os melhores sistemas alcançam apenas 36% de precisão numérica — evidência concreta de que os pipelines de RAG precisam de camadas de validação antes de escrever em livros contábeis estruturados.
Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente
Uma leitura crítica do levantamento de Ruiyao Xu e Kaize Ding para a NAACL 2025 sobre detecção de anomalias e OOD baseada em LLM; a taxonomia detecção-vs-geração se sustenta, mas a ausência quase total de cobertura tabular significa que profissionais de IA financeira devem sintetizar insights de modelos de visão por conta própria.
Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo
Uma calibração em tempo de inferência, sem necessidade de treinamento, subtrai o viés posicional dos pesos de atenção do LLM, recuperando até 15 pontos percentuais de precisão de RAG quando documentos recuperados estão enterrados no meio do contexto — e o que isso significa para pipelines de agentes financeiros específicos.
Diferimento Ciente de Incerteza para Agentes LLM: Quando Escalar de Modelos Pequenos para Grandes
O ReDAct executa um modelo pequeno por padrão e escala para um modelo caro apenas quando a perplexidade em nível de token sinaliza incerteza, alcançando 64% de economia de custos em relação ao uso apenas do GPT-5.2, mantendo ou superando sua precisão — um padrão diretamente aplicável para agentes de categorização de transações no Beancount.