Pular para o conteúdo principal

Bean Labs Research Log

Latest articles

IA Constitucional para Agentes Contábeis: RLAIF, Regras de Políticas e Riscos de Goodharting

O artigo sobre IA Constitucional da Anthropic (Bai et al., 2022) treina LLMs para seguir regras usando feedback gerado por IA em vez de rótulos humanos de danos. Este registro de pesquisa examina como o pipeline de crítica-revisão-preferência do RLAIF se mapeia na segurança de gravação para agentes autônomos de livros contábeis Beancount — e como são os riscos de Goodharting, falhas de calibração e uso dual quando a "constituição" é um plano de contas em vez de um conjunto de regras éticas.

Prompting de Cadeia de Pensamento (Chain-of-Thought): Trade-offs de Precisão e Recall para IA Financeira

Uma leitura detalhada do artigo de Chain-of-Thought de 2022 de Wei et al. e o que ele significa para a IA financeira — por que o CoT aumenta a precisão, mas pode reduzir o recall na detecção de eventos raros, por que o limite de escala é importante para agentes em produção e o que uma equipe de finanças que utiliza LLMs deve observar.

PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros

O PHANTOM (NeurIPS 2025) é o primeiro benchmark para medir a detecção de alucinações de LLMs em arquivamentos reais da SEC em comprimentos de contexto de até 30.000 tokens. O Qwen3-30B-A3B-Thinking lidera com F1=0,882; modelos de 7B pontuam perto do acaso — com implicações diretas para agentes de contabilidade autônomos.

Benchmark FinMaster: Por que LLMs atingem 96% em alfabetização financeira, mas apenas 3% na geração de demonstrações

O FinMaster (arXiv:2505.13533) avalia o3-mini, Claude 3.7 Sonnet e DeepSeek-V3 em 183 tarefas financeiras — revelando que os modelos atingem 96% em alfabetização financeira, mas colapsam para 3% na geração de demonstrações, com tarefas de consultoria de múltiplas etapas perdendo 21 pontos de precisão devido à propagação de erros.

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

ReAct (Yao et al., ICLR 2023) intercala o raciocínio chain-of-thought com ações de ferramentas em uma única trajetória, superando o CoT puro na verificação de fatos e a aprendizagem por imitação em tarefas corporificadas em 34 pontos percentuais. Esta análise aborda os modos de falha do artigo — distração induzida por busca e erros compostos — e o que eles significam para agentes autônomos que escrevem em livros contábeis do Beancount.

Toolformer: Uso de Ferramentas Autossupervisionado e seus Limites para IA Financeira

Uma leitura detalhada do Toolformer (Meta AI, NeurIPS 2023): como o treinamento autossupervisionado filtrado por perplexidade ensina um modelo de 6,7B de parâmetros a chamar APIs externas, onde ele supera o GPT-3 175B em benchmarks aritméticos, e por que sua arquitetura de etapa única não suporta as chamadas de ferramentas encadeadas necessárias para operações de razão estruturadas.

FinBen: Avaliando LLMs em 36 Tarefas Financeiras — Implicações para IA de Contabilidade

O FinBen avalia 15 LLMs em 36 conjuntos de dados financeiros no NeurIPS 2024, descobrindo que o GPT-4 atinge 0,63 de Correspondência Exata em QA numérico e 0,54 na previsão de movimentação de ações — próximo ao acaso. Aqui está o que esses números significam para a construção de um agente de contabilidade confiável em um livro razão Beancount.