Bean Labs Research Log

AILLMMachine LearningAutomationPython APIDevelopersBeancount

Gorilla: Como o Treinamento Consciente de Recuperação Reduz as Alucinações de APIs em LLMs de 78% para 11%

O Gorilla (Patil et al., NeurIPS 2024) faz o ajuste fino de um modelo LLaMA de 7B com Treinamento Consciente de Recuperação (Retriever-Aware Training) em documentação de API recuperada, reduzindo as taxas de alucinação de 78% para 11% em relação ao GPT-4 zero-shot — com implicações diretas para agentes de IA financeira de gravação, onde nomes de contas incorretos ou sinais invertidos são falhas de integridade, não apenas incômodos.

Latest articles

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Gerenciamento de Contexto Virtual para Agentes de LLM

O MemGPT aplica a paginação de memória virtual do estilo de sistemas operacionais a LLMs, usando armazenamento em três níveis — memória de trabalho, recuperação e arquivamento — para dar aos agentes uma lembrança persistente entre sessões; em benchmarks de chat multissessão, o MemGPT com GPT-4 atinge 92,5% de precisão contra uma linha de base de contexto fixo de 32,1%.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada

O SWE-agent (NeurIPS 2024) introduz as Interfaces Agente-Computador (ACIs) — camadas projetadas especificamente entre LLMs e ambientes de software — mostrando uma melhoria de 10,7 pontos percentuais em relação ao acesso bruto ao shell e 12,47% de resolução no SWE-bench com GPT-4 Turbo. O design da interface, e não a capacidade do modelo, é o principal gargalo para agentes de codificação autônomos.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: Modelos de Linguagem Conseguem Resolver Problemas Reais do GitHub?

O SWE-bench avalia modelos de linguagem em 2.294 problemas reais do GitHub em 12 repositórios Python usando testes baseados em execução; na publicação, o Claude 2 resolveu apenas 1,96% dos problemas com recuperação realista, estabelecendo o benchmark de fato para agentes de codificação e revelando modos de falha de recuperação e comprimento de patch diretamente relevantes para agentes de write-back do Beancount.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Por que Código Python Executável Torna Agentes de LLM 20% Mais Precisos

O CodeAct (ICML 2024) substitui a chamada de ferramentas via JSON por código Python executável, aumentando as taxas de sucesso de agentes GPT-4 em ~20 pontos percentuais em tarefas multi-ferramentas e reduzindo os turnos de interação em 30% — com implicações diretas para a construção de agentes de reconciliação Beancount confiáveis.

LLMAIMachine LearningAutomationBeancountFinanceTrust

LLMs ainda não conseguem autocorrigir raciocínio — Descobertas do ICLR 2024 e implicações para IA em Finanças

Huang et al. (ICLR 2024) mostram que LLMs solicitados a revisar seu próprio raciocínio sem feedback externo degradam consistentemente a precisão — o GPT-4 cai de 95,5% para 91,5% no GSM8K — e o que isso significa para o design de agentes confiáveis de lançamento de diário no Beancount.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Tree of Thoughts: Resolução Deliberada de Problemas com Busca de LLM

O Tree of Thoughts (ToT) alcança 74% no Game of 24 vs 4% para o GPT-4 CoT padrão, organizando o raciocínio de LLM em uma árvore de busca ramificada com poda e backtracking — com implicações diretas para classificação financeira em múltiplas etapas e otimização fiscal em fluxos de trabalho do Beancount.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Por que a Autocorreção de LLM Requer Feedback de Ferramentas Externas

O CRITIC (ICLR 2024) alcança ganhos de 7,7 no F1 em QA de domínio aberto e uma redução de 79,2% na toxicidade ao fundamentar a revisão de LLM em sinais de ferramentas externas — um loop de verificar-e-corrigir que se mapeia diretamente na segurança de gravação para agentes financeiros Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion: Agentes de Linguagem que Aprendem com Erros sem Retreinamento

Reflexion (NeurIPS 2023) permite que agentes LLM melhorem ao armazenar post-mortems verbais em um buffer episódico — sem necessidade de atualizações de pesos. Alcança 91% no HumanEval com GPT-4, mas falha no WebShop, revelando uma restrição estrutural: o reforço verbal só funciona quando o avaliador produz um sinal claro e acionável. Veja o que isso significa para construir um agente de livro-razão Beancount auto-corretor.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Auto-consistência: Amostragem de Voto Majoritário Aumenta a Precisão da Cadeia de Pensamento

A auto-consistência substitui a decodificação gulosa da cadeia de pensamento por um voto majoritário sobre N caminhos de raciocínio amostrados — aumentando a precisão do GPT-3 no GSM8K em 17,9 pontos percentuais sem qualquer ajuste fino — e aplica-se diretamente a cálculos financeiros de múltiplas etapas onde uma única decodificação de LLM não é confiável.

Comece a usar o Beancount.io

Assuma o controle de suas finanças com nosso sistema de contabilidade de partidas dobradas de código aberto. Comece seu livro-razão hoje.

Começar Gratuitamente Ver Preços

Construído com transparência • Controle de versão • Alimentado por IA