Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros
O PHANTOM (NeurIPS 2025) é o primeiro benchmark para medir a detecção de alucinações de LLMs em arquivamentos reais da SEC em comprimentos de contexto de até 30.000 tokens. O Qwen3-30B-A3B-Thinking lidera com F1=0,882; modelos de 7B pontuam perto do acaso — com implicações diretas para agentes de contabilidade autônomos.
Benchmark FinMaster: Por que LLMs atingem 96% em alfabetização financeira, mas apenas 3% na geração de demonstrações
O FinMaster (arXiv:2505.13533) avalia o3-mini, Claude 3.7 Sonnet e DeepSeek-V3 em 183 tarefas financeiras — revelando que os modelos atingem 96% em alfabetização financeira, mas colapsam para 3% na geração de demonstrações, com tarefas de consultoria de múltiplas etapas perdendo 21 pontos de precisão devido à propagação de erros.
ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem
ReAct (Yao et al., ICLR 2023) intercala o raciocínio chain-of-thought com ações de ferramentas em uma única trajetória, superando o CoT puro na verificação de fatos e a aprendizagem por imitação em tarefas corporificadas em 34 pontos percentuais. Esta análise aborda os modos de falha do artigo — distração induzida por busca e erros compostos — e o que eles significam para agentes autônomos que escrevem em livros contábeis do Beancount.