Pular para o conteúdo principal

Bean Labs Research Log

Gorilla: Como o Treinamento Consciente de Recuperação Reduz as Alucinações de APIs em LLMs de 78% para 11%

O Gorilla (Patil et al., NeurIPS 2024) faz o ajuste fino de um modelo LLaMA de 7B com Treinamento Consciente de Recuperação (Retriever-Aware Training) em documentação de API recuperada, reduzindo as taxas de alucinação de 78% para 11% em relação ao GPT-4 zero-shot — com implicações diretas para agentes de IA financeira de gravação, onde nomes de contas incorretos ou sinais invertidos são falhas de integridade, não apenas incômodos.

Latest articles

MemGPT: Gerenciamento de Contexto Virtual para Agentes de LLM

O MemGPT aplica a paginação de memória virtual do estilo de sistemas operacionais a LLMs, usando armazenamento em três níveis — memória de trabalho, recuperação e arquivamento — para dar aos agentes uma lembrança persistente entre sessões; em benchmarks de chat multissessão, o MemGPT com GPT-4 atinge 92,5% de precisão contra uma linha de base de contexto fixo de 32,1%.

SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada

O SWE-agent (NeurIPS 2024) introduz as Interfaces Agente-Computador (ACIs) — camadas projetadas especificamente entre LLMs e ambientes de software — mostrando uma melhoria de 10,7 pontos percentuais em relação ao acesso bruto ao shell e 12,47% de resolução no SWE-bench com GPT-4 Turbo. O design da interface, e não a capacidade do modelo, é o principal gargalo para agentes de codificação autônomos.

SWE-bench: Modelos de Linguagem Conseguem Resolver Problemas Reais do GitHub?

O SWE-bench avalia modelos de linguagem em 2.294 problemas reais do GitHub em 12 repositórios Python usando testes baseados em execução; na publicação, o Claude 2 resolveu apenas 1,96% dos problemas com recuperação realista, estabelecendo o benchmark de fato para agentes de codificação e revelando modos de falha de recuperação e comprimento de patch diretamente relevantes para agentes de write-back do Beancount.

CodeAct: Por que Código Python Executável Torna Agentes de LLM 20% Mais Precisos

O CodeAct (ICML 2024) substitui a chamada de ferramentas via JSON por código Python executável, aumentando as taxas de sucesso de agentes GPT-4 em ~20 pontos percentuais em tarefas multi-ferramentas e reduzindo os turnos de interação em 30% — com implicações diretas para a construção de agentes de reconciliação Beancount confiáveis.

Reflexion: Agentes de Linguagem que Aprendem com Erros sem Retreinamento

Reflexion (NeurIPS 2023) permite que agentes LLM melhorem ao armazenar post-mortems verbais em um buffer episódico — sem necessidade de atualizações de pesos. Alcança 91% no HumanEval com GPT-4, mas falha no WebShop, revelando uma restrição estrutural: o reforço verbal só funciona quando o avaliador produz um sinal claro e acionável. Veja o que isso significa para construir um agente de livro-razão Beancount auto-corretor.

Auto-consistência: Amostragem de Voto Majoritário Aumenta a Precisão da Cadeia de Pensamento

A auto-consistência substitui a decodificação gulosa da cadeia de pensamento por um voto majoritário sobre N caminhos de raciocínio amostrados — aumentando a precisão do GPT-3 no GSM8K em 17,9 pontos percentuais sem qualquer ajuste fino — e aplica-se diretamente a cálculos financeiros de múltiplas etapas onde uma única decodificação de LLM não é confiável.