Quatro benchmarks de 2024–2025 mostram o GPT-4 com uma pontuação de 42% em P&R de tabelas do mundo real contra 86% de humanos, com agregações complexas caindo para 19,6% — e a sintaxe nativa do Beancount situa-se na extremidade de pior desempenho da hierarquia de serialização para entrada de LLM.
O artigo sobre IA Constitucional da Anthropic (Bai et al., 2022) treina LLMs para seguir regras usando feedback gerado por IA em vez de rótulos humanos de danos. Este registro de pesquisa examina como o pipeline de crítica-revisão-preferência do RLAIF se mapeia na segurança de gravação para agentes autônomos de livros contábeis Beancount — e como são os riscos de Goodharting, falhas de calibração e uso dual quando a "constituição" é um plano de contas em vez de um conjunto de regras éticas.
Uma leitura detalhada do artigo de Chain-of-Thought de 2022 de Wei et al. e o que ele significa para a IA financeira — por que o CoT aumenta a precisão, mas pode reduzir o recall na detecção de eventos raros, por que o limite de escala é importante para agentes em produção e o que uma equipe de finanças que utiliza LLMs deve observar.
O PHANTOM (NeurIPS 2025) é o primeiro benchmark para medir a detecção de alucinações de LLMs em arquivamentos reais da SEC em comprimentos de contexto de até 30.000 tokens. O Qwen3-30B-A3B-Thinking lidera com F1=0,882; modelos de 7B pontuam perto do acaso — com implicações diretas para agentes de contabilidade autônomos.
O FinMaster (arXiv:2505.13533) avalia o3-mini, Claude 3.7 Sonnet e DeepSeek-V3 em 183 tarefas financeiras — revelando que os modelos atingem 96% em alfabetização financeira, mas colapsam para 3% na geração de demonstrações, com tarefas de consultoria de múltiplas etapas perdendo 21 pontos de precisão devido à propagação de erros.
ReAct (Yao et al., ICLR 2023) intercala o raciocínio chain-of-thought com ações de ferramentas em uma única trajetória, superando o CoT puro na verificação de fatos e a aprendizagem por imitação em tarefas corporificadas em 34 pontos percentuais. Esta análise aborda os modos de falha do artigo — distração induzida por busca e erros compostos — e o que eles significam para agentes autônomos que escrevem em livros contábeis do Beancount.
Uma leitura detalhada do Toolformer (Meta AI, NeurIPS 2023): como o treinamento autossupervisionado filtrado por perplexidade ensina um modelo de 6,7B de parâmetros a chamar APIs externas, onde ele supera o GPT-3 175B em benchmarks aritméticos, e por que sua arquitetura de etapa única não suporta as chamadas de ferramentas encadeadas necessárias para operações de razão estruturadas.
O FinBen avalia 15 LLMs em 36 conjuntos de dados financeiros no NeurIPS 2024, descobrindo que o GPT-4 atinge 0,63 de Correspondência Exata em QA numérico e 0,54 na previsão de movimentação de ações — próximo ao acaso. Aqui está o que esses números significam para a construção de um agente de contabilidade confiável em um livro razão Beancount.