Mike Thrift
Marketing Manager
SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada
O SWE-agent (NeurIPS 2024) introduz as Interfaces Agente-Computador (ACIs) — camadas projetadas especificamente entre LLMs e ambientes de software — mostrando uma melhoria de 10,7 pontos percentuais em relação ao acesso bruto ao shell e 12,47% de resolução no SWE-bench com GPT-4 Turbo. O design da interface, e não a capacidade do modelo, é o principal gargalo para agentes de codificação autônomos.
SWE-bench: Modelos de Linguagem Conseguem Resolver Problemas Reais do GitHub?
O SWE-bench avalia modelos de linguagem em 2.294 problemas reais do GitHub em 12 repositórios Python usando testes baseados em execução; na publicação, o Claude 2 resolveu apenas 1,96% dos problemas com recuperação realista, estabelecendo o benchmark de fato para agentes de codificação e revelando modos de falha de recuperação e comprimento de patch diretamente relevantes para agentes de write-back do Beancount.
CodeAct: Por que Código Python Executável Torna Agentes de LLM 20% Mais Precisos
O CodeAct (ICML 2024) substitui a chamada de ferramentas via JSON por código Python executável, aumentando as taxas de sucesso de agentes GPT-4 em ~20 pontos percentuais em tarefas multi-ferramentas e reduzindo os turnos de interação em 30% — com implicações diretas para a construção de agentes de reconciliação Beancount confiáveis.
LLMs ainda não conseguem autocorrigir raciocínio — Descobertas do ICLR 2024 e implicações para IA em Finanças
Huang et al. (ICLR 2024) mostram que LLMs solicitados a revisar seu próprio raciocínio sem feedback externo degradam consistentemente a precisão — o GPT-4 cai de 95,5% para 91,5% no GSM8K — e o que isso significa para o design de agentes confiáveis de lançamento de diário no Beancount.
Tree of Thoughts: Resolução Deliberada de Problemas com Busca de LLM
O Tree of Thoughts (ToT) alcança 74% no Game of 24 vs 4% para o GPT-4 CoT padrão, organizando o raciocínio de LLM em uma árvore de busca ramificada com poda e backtracking — com implicações diretas para classificação financeira em múltiplas etapas e otimização fiscal em fluxos de trabalho do Beancount.
CRITIC: Por que a Autocorreção de LLM Requer Feedback de Ferramentas Externas
O CRITIC (ICLR 2024) alcança ganhos de 7,7 no F1 em QA de domínio aberto e uma redução de 79,2% na toxicidade ao fundamentar a revisão de LLM em sinais de ferramentas externas — um loop de verificar-e-corrigir que se mapeia diretamente na segurança de gravação para agentes financeiros Beancount.
Reflexion: Agentes de Linguagem que Aprendem com Erros sem Retreinamento
Reflexion (NeurIPS 2023) permite que agentes LLM melhorem ao armazenar post-mortems verbais em um buffer episódico — sem necessidade de atualizações de pesos. Alcança 91% no HumanEval com GPT-4, mas falha no WebShop, revelando uma restrição estrutural: o reforço verbal só funciona quando o avaliador produz um sinal claro e acionável. Veja o que isso significa para construir um agente de livro-razão Beancount auto-corretor.
Auto-consistência: Amostragem de Voto Majoritário Aumenta a Precisão da Cadeia de Pensamento
A auto-consistência substitui a decodificação gulosa da cadeia de pensamento por um voto majoritário sobre N caminhos de raciocínio amostrados — aumentando a precisão do GPT-3 no GSM8K em 17,9 pontos percentuais sem qualquer ajuste fino — e aplica-se diretamente a cálculos financeiros de múltiplas etapas onde uma única decodificação de LLM não é confiável.
PAL: Modelos de Linguagem Auxiliados por Programas para Aritmética Financeira Confiável
O PAL (Modelos de Linguagem Auxiliados por Programas) alcança um ganho de precisão de +38pp em relação à cadeia de pensamento em tarefas com aritmética pesada, delegando o cálculo a um intérprete Python — uma arquitetura diretamente aplicável para consultas confiáveis no livro razão do Beancount e IA financeira.
LLMs Conseguem Raciocinar Sobre Dados Tabulares? O Que Quatro Benchmarks Nos Dizem Sobre IA nas Finanças
Quatro benchmarks de 2024–2025 mostram o GPT-4 com uma pontuação de 42% em P&R de tabelas do mundo real contra 86% de humanos, com agregações complexas caindo para 19,6% — e a sintaxe nativa do Beancount situa-se na extremidade de pior desempenho da hierarquia de serialização para entrada de LLM.
IA Constitucional para Agentes Contábeis: RLAIF, Regras de Políticas e Riscos de Goodharting
O artigo sobre IA Constitucional da Anthropic (Bai et al., 2022) treina LLMs para seguir regras usando feedback gerado por IA em vez de rótulos humanos de danos. Este registro de pesquisa examina como o pipeline de crítica-revisão-preferência do RLAIF se mapeia na segurança de gravação para agentes autônomos de livros contábeis Beancount — e como são os riscos de Goodharting, falhas de calibração e uso dual quando a "constituição" é um plano de contas em vez de um conjunto de regras éticas.
Prompting de Cadeia de Pensamento (Chain-of-Thought): Trade-offs de Precisão e Recall para IA Financeira
Uma leitura detalhada do artigo de Chain-of-Thought de 2022 de Wei et al. e o que ele significa para a IA financeira — por que o CoT aumenta a precisão, mas pode reduzir o recall na detecção de eventos raros, por que o limite de escala é importante para agentes em produção e o que uma equipe de finanças que utiliza LLMs deve observar.