Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros

O PHANTOM (NeurIPS 2025) é o primeiro benchmark para medir a detecção de alucinações de LLMs em arquivamentos reais da SEC em comprimentos de contexto de até 30.000 tokens. O Qwen3-30B-A3B-Thinking lidera com F1=0,882; modelos de 7B pontuam perto do acaso — com implicações diretas para agentes de contabilidade autônomos.

llm

machine-learning

April 18, 2026·mike

Benchmark FinMaster: Por que LLMs atingem 96% em alfabetização financeira, mas apenas 3% na geração de demonstrações

O FinMaster (arXiv:2505.13533) avalia o3-mini, Claude 3.7 Sonnet e DeepSeek-V3 em 183 tarefas financeiras — revelando que os modelos atingem 96% em alfabetização financeira, mas colapsam para 3% na geração de demonstrações, com tarefas de consultoria de múltiplas etapas perdendo 21 pontos de precisão devido à propagação de erros.

llm

accounting

April 17, 2026·mike

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

ReAct (Yao et al., ICLR 2023) intercala o raciocínio chain-of-thought com ações de ferramentas em uma única trajetória, superando o CoT puro na verificação de fatos e a aprendizagem por imitação em tarefas corporificadas em 34 pontos percentuais. Esta análise aborda os modos de falha do artigo — distração induzida por busca e erros compostos — e o que eles significam para agentes autônomos que escrevem em livros contábeis do Beancount.

llm

machine-learning

Mostrando 85–87 de 87 publicações

Anterior8 / 8