O MemGPT aplica a paginação de memória virtual do estilo de sistemas operacionais a LLMs, usando armazenamento em três níveis — memória de trabalho, recuperação e arquivamento — para dar aos agentes uma lembrança persistente entre sessões; em benchmarks de chat multissessão, o MemGPT com GPT-4 atinge 92,5% de precisão contra uma linha de base de contexto fixo de 32,1%.
O SWE-agent (NeurIPS 2024) introduz as Interfaces Agente-Computador (ACIs) — camadas projetadas especificamente entre LLMs e ambientes de software — mostrando uma melhoria de 10,7 pontos percentuais em relação ao acesso bruto ao shell e 12,47% de resolução no SWE-bench com GPT-4 Turbo. O design da interface, e não a capacidade do modelo, é o principal gargalo para agentes de codificação autônomos.
O SWE-bench avalia modelos de linguagem em 2.294 problemas reais do GitHub em 12 repositórios Python usando testes baseados em execução; na publicação, o Claude 2 resolveu apenas 1,96% dos problemas com recuperação realista, estabelecendo o benchmark de fato para agentes de codificação e revelando modos de falha de recuperação e comprimento de patch diretamente relevantes para agentes de write-back do Beancount.
O CodeAct (ICML 2024) substitui a chamada de ferramentas via JSON por código Python executável, aumentando as taxas de sucesso de agentes GPT-4 em ~20 pontos percentuais em tarefas multi-ferramentas e reduzindo os turnos de interação em 30% — com implicações diretas para a construção de agentes de reconciliação Beancount confiáveis.
Huang et al. (ICLR 2024) mostram que LLMs solicitados a revisar seu próprio raciocínio sem feedback externo degradam consistentemente a precisão — o GPT-4 cai de 95,5% para 91,5% no GSM8K — e o que isso significa para o design de agentes confiáveis de lançamento de diário no Beancount.
O Tree of Thoughts (ToT) alcança 74% no Game of 24 vs 4% para o GPT-4 CoT padrão, organizando o raciocínio de LLM em uma árvore de busca ramificada com poda e backtracking — com implicações diretas para classificação financeira em múltiplas etapas e otimização fiscal em fluxos de trabalho do Beancount.
O CRITIC (ICLR 2024) alcança ganhos de 7,7 no F1 em QA de domínio aberto e uma redução de 79,2% na toxicidade ao fundamentar a revisão de LLM em sinais de ferramentas externas — um loop de verificar-e-corrigir que se mapeia diretamente na segurança de gravação para agentes financeiros Beancount.
Reflexion (NeurIPS 2023) permite que agentes LLM melhorem ao armazenar post-mortems verbais em um buffer episódico — sem necessidade de atualizações de pesos. Alcança 91% no HumanEval com GPT-4, mas falha no WebShop, revelando uma restrição estrutural: o reforço verbal só funciona quando o avaliador produz um sinal claro e acionável. Veja o que isso significa para construir um agente de livro-razão Beancount auto-corretor.
A auto-consistência substitui a decodificação gulosa da cadeia de pensamento por um voto majoritário sobre N caminhos de raciocínio amostrados — aumentando a precisão do GPT-3 no GSM8K em 17,9 pontos percentuais sem qualquer ajuste fino — e aplica-se diretamente a cálculos financeiros de múltiplas etapas onde uma única decodificação de LLM não é confiável.