Pular para o conteúdo principal
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Ver todos os autores

PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros
·mike

PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros

O PHANTOM (NeurIPS 2025) é o primeiro benchmark para medir a detecção de alucinações de LLMs em arquivamentos reais da SEC em comprimentos de contexto de até 30.000 tokens. O Qwen3-30B-A3B-Thinking lidera com F1=0,882; modelos de 7B pontuam perto do acaso — com implicações diretas para agentes de contabilidade autônomos.

llm
ai
machine-learning
finance
+4
Benchmark FinMaster: Por que LLMs atingem 96% em alfabetização financeira, mas apenas 3% na geração de demonstrações
·mike

Benchmark FinMaster: Por que LLMs atingem 96% em alfabetização financeira, mas apenas 3% na geração de demonstrações

O FinMaster (arXiv:2505.13533) avalia o3-mini, Claude 3.7 Sonnet e DeepSeek-V3 em 183 tarefas financeiras — revelando que os modelos atingem 96% em alfabetização financeira, mas colapsam para 3% na geração de demonstrações, com tarefas de consultoria de múltiplas etapas perdendo 21 pontos de precisão devido à propagação de erros.

llm
accounting
ai
financial-statements
+3
ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem
·mike

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

ReAct (Yao et al., ICLR 2023) intercala o raciocínio chain-of-thought com ações de ferramentas em uma única trajetória, superando o CoT puro na verificação de fatos e a aprendizagem por imitação em tarefas corporificadas em 34 pontos percentuais. Esta análise aborda os modos de falha do artigo — distração induzida por busca e erros compostos — e o que eles significam para agentes autônomos que escrevem em livros contábeis do Beancount.

ai
llm
machine-learning
automation
+3
Mostrando 85–87 de 87 publicações
Anterior8 / 8