Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

LLMs Conseguem Raciocinar Sobre Dados Tabulares? O Que Quatro Benchmarks Nos Dizem Sobre IA nas Finanças

Quatro benchmarks de 2024–2025 mostram o GPT-4 com uma pontuação de 42% em P&R de tabelas do mundo real contra 86% de humanos, com agregações complexas caindo para 19,6% — e a sintaxe nativa do Beancount situa-se na extremidade de pior desempenho da hierarquia de serialização para entrada de LLM.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

IA Constitucional para Agentes Contábeis: RLAIF, Regras de Políticas e Riscos de Goodharting

O artigo sobre IA Constitucional da Anthropic (Bai et al., 2022) treina LLMs para seguir regras usando feedback gerado por IA em vez de rótulos humanos de danos. Este registro de pesquisa examina como o pipeline de crítica-revisão-preferência do RLAIF se mapeia na segurança de gravação para agentes autônomos de livros contábeis Beancount — e como são os riscos de Goodharting, falhas de calibração e uso dual quando a "constituição" é um plano de contas em vez de um conjunto de regras éticas.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

Prompting de Cadeia de Pensamento (Chain-of-Thought): Trade-offs de Precisão e Recall para IA Financeira

Uma leitura detalhada do artigo de Chain-of-Thought de 2022 de Wei et al. e o que ele significa para a IA financeira — por que o CoT aumenta a precisão, mas pode reduzir o recall na detecção de eventos raros, por que o limite de escala é importante para agentes em produção e o que uma equipe de finanças que utiliza LLMs deve observar.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros

O PHANTOM (NeurIPS 2025) é o primeiro benchmark para medir a detecção de alucinações de LLMs em arquivamentos reais da SEC em comprimentos de contexto de até 30.000 tokens. O Qwen3-30B-A3B-Thinking lidera com F1=0,882; modelos de 7B pontuam perto do acaso — com implicações diretas para agentes de contabilidade autônomos.

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

Benchmark FinMaster: Por que LLMs atingem 96% em alfabetização financeira, mas apenas 3% na geração de demonstrações

O FinMaster (arXiv:2505.13533) avalia o3-mini, Claude 3.7 Sonnet e DeepSeek-V3 em 183 tarefas financeiras — revelando que os modelos atingem 96% em alfabetização financeira, mas colapsam para 3% na geração de demonstrações, com tarefas de consultoria de múltiplas etapas perdendo 21 pontos de precisão devido à propagação de erros.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

ReAct (Yao et al., ICLR 2023) intercala o raciocínio chain-of-thought com ações de ferramentas em uma única trajetória, superando o CoT puro na verificação de fatos e a aprendizagem por imitação em tarefas corporificadas em 34 pontos percentuais. Esta análise aborda os modos de falha do artigo — distração induzida por busca e erros compostos — e o que eles significam para agentes autônomos que escrevem em livros contábeis do Beancount.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: Uso de Ferramentas Autossupervisionado e seus Limites para IA Financeira

Uma leitura detalhada do Toolformer (Meta AI, NeurIPS 2023): como o treinamento autossupervisionado filtrado por perplexidade ensina um modelo de 6,7B de parâmetros a chamar APIs externas, onde ele supera o GPT-3 175B em benchmarks aritméticos, e por que sua arquitetura de etapa única não suporta as chamadas de ferramentas encadeadas necessárias para operações de razão estruturadas.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen: Avaliando LLMs em 36 Tarefas Financeiras — Implicações para IA de Contabilidade

O FinBen avalia 15 LLMs em 36 conjuntos de dados financeiros no NeurIPS 2024, descobrindo que o GPT-4 atinge 0,63 de Correspondência Exata em QA numérico e 0,54 na previsão de movimentação de ações — próximo ao acaso. Aqui está o que esses números significam para a construção de um agente de contabilidade confiável em um livro razão Beancount.

PAL: Modelos de Linguagem Auxiliados por Programas para Aritmética Financeira Confiável

Latest articles

LLMs Conseguem Raciocinar Sobre Dados Tabulares? O Que Quatro Benchmarks Nos Dizem Sobre IA nas Finanças

IA Constitucional para Agentes Contábeis: RLAIF, Regras de Políticas e Riscos de Goodharting

Prompting de Cadeia de Pensamento (Chain-of-Thought): Trade-offs de Precisão e Recall para IA Financeira

PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros

Benchmark FinMaster: Por que LLMs atingem 96% em alfabetização financeira, mas apenas 3% na geração de demonstrações

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

Toolformer: Uso de Ferramentas Autossupervisionado e seus Limites para IA Financeira

FinBen: Avaliando LLMs em 36 Tarefas Financeiras — Implicações para IA de Contabilidade

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico