AgentBench: Avaliando LLMs como Agentes — Lições para a Confiabilidade da IA em Finanças
Quando me pergunto o que um agente de gravação do Beancount realmente precisa fazer de forma confiável, a resposta não é "gerar texto" — é "tomar uma sequência de ações em um ambiente estruturado sem sair dos trilhos". O AgentBench (Liu et al., Tsinghua, ICLR 2024) é uma das primeiras tentativas sérias de medir essa capacidade em escala, e os números do instantâneo de 2023 ainda contêm lições que valem a pena extrair.
O artigo
O AgentBench, de Xiao Liu e 21 coautores da Universidade de Tsinghua, define oito ambientes projetados para testar o estresse de LLMs como agentes interativos, em vez de geradores de texto passivos. Cinco ambientes são originais: OS (interação bash), Banco de Dados (geração de SQL e recuperação de erros), Grafo de Conhecimento (consultas estruturadas baseadas em ferramentas), Jogo de Cartas Digital (competição estratégica multiturno) e Quebra-cabeças de Pensamento Lateral (diálogo dedutivo). Três são adaptados de conjuntos de dados anteriores: House-Holding do ALFWorld, Web Shopping do WebShop e Web Browsing do Mind2Web. O artigo avalia 27 modelos — modelos de API comerciais e modelos de código aberto de até 70B — em aproximadamente 4.000 gerações de divisão de desenvolvimento e 13.000 de divisão de teste, e relata tanto as taxas de sucesso por ambiente quanto uma pontuação geral composta.
Ideias principais
- O GPT-4 lidera com uma pontuação geral de 4,01. O Claude-2 pontua 2,49, e o GPT-3.5-turbo 2,32. O CodeLlama-34B, o modelo de código aberto mais forte na época da submissão, pontua apenas 0,96. Os modelos baseados em API tiveram uma média de 2,24 no geral contra 0,42 para os de código aberto.
- O GPT-4 pontua 42,4% em OS, 32,0% em Banco de Dados e 78,0% em House-Holding — a amplitude revela quais ambientes recompensam o seguimento de instruções versus o raciocínio estruturado.
- "Limite de Tarefa Excedido" é o modo de falha dominante: 67,9% das falhas no Grafo de Conhecimento atingiram o limite de passos antes de resolver a tarefa. Esta é uma falha de raciocínio de longo horizonte, não uma falha de conhecimento.
- Erros de conformidade de formato representam 53,3% das falhas nas tarefas de Banco de Dados — o agente produz SQL sintaticamente errado ou envolve as consultas em prosa que o avaliador não consegue analisar.
- A seleção de ações inválidas impulsiona 64,1% das falhas em House-Holding — o agente nomeia uma ação não disponível no estado atual.
- O treinamento em código tem "impactos ambivalentes em todas as tarefas": ajuda em ambientes de seguimento de procedimentos, mas pode prejudicar o raciocínio geral em ambientes focados em diálogo.
O que se sustenta — e o que não
A escolha central do design — avaliação interativa, multiturno e multiambiente — está correta e continua sendo pouco utilizada. A maioria dos benchmarks de LLM ainda mede a qualidade da geração em turno único; o AgentBench insiste corretamente que os agentes precisam continuar tomando decisões até que uma tarefa seja concluída ou o limite de recursos se esgote.
Dito isso, o instantâneo está datado de uma forma significativa. A lacuna entre o GPT-4 (4,01) e o melhor modelo de código aberto (0,96) parecia alarmante em meados de 2023, mas foi amplamente reduzida até 2025. Modelos como Llama 3.1 70B ou Qwen 2.5 72B agora superam barreiras de seguimento de instruções e conformidade de formato que eram obstáculos inéditos há dois anos. Ler o artigo como evidência de que "o código aberto não consegue realizar tarefas de agentes" seria um erro; lê-lo como evidência de que "a conformidade de formato e a consistência de longo horizonte são os problemas difíceis" ainda é válido.
Há também uma tensão entre amplitude e profundidade. Oito ambientes parecem abrangentes, mas cada um é relativamente raso. O WebArena (Zhou et al., 2024) cobre a navegação na web isoladamente com 812 tarefas modeladas de longo horizonte; o OSWorld (Xie et al., 2024) avalia 369 tarefas reais de desktop no Ubuntu e Windows. O AgentBench pode fornecer um sinal entre ambientes, mas não substituirá um benchmark específico de domínio assim que você identificar o ambiente de seu interesse.
A taxonomia dos modos de falha na Tabela 4 é provavelmente a contribuição mais duradoura. Os autores decompõem as falhas em Limite de Tarefa Excedido, Erro de Formato, Ação Inválida e alguns outros. Esses não são bugs de implementação — são fraquezas estruturais em como os LLMs mantêm o estado, rastreiam ações disponíveis e produzem saídas analisáveis sob pressão de múltiplos turnos. Qualquer sistema de agente sério precisa enfrentá-los.
Por que isso importa para a IA nas finanças
Os três modos de falha dominantes mapeiam-se quase diretamente no que eu esperaria que quebrasse um agente de gravação do Beancount.
Limite de Tarefa Excedido é o modo de falha da reconciliação do livro-razão. Reconciliar o fechamento de um período com várias contas exige verificar saldos iniciais, corresponder débitos e créditos, identificar discrepâncias e propor correções — uma cadeia que pode facilmente chegar a 10–20 passos. Um agente que atinge seu limite de contexto ou de passos no meio da cadeia e desiste não falha apenas de forma graciosa; ele pode deixar o livro-razão em um estado parcialmente modificado.
Erro de Formato é o modo de falha da entrada de transações. O Beancount tem uma sintaxe estrita: um lançamento malformado (moeda ausente, indentação errada, flag inválida) é um erro de análise que corrompe o arquivo. Um agente que gera prosa ao redor de sua saída do Beancount, ou produz uma sintaxe que parece correta mas no formato errado, é inútil. Este é o problema central do artigo CRITIC aplicado a um domínio mais rigoroso.
Ação Inválida é o problema de segurança da gravação. Um agente Beancount operando em um livro-razão real tem um conjunto limitado de operações seguras: anexar uma transação, corrigir uma flag, mover um lançamento. Alucinar uma ação fora desse conjunto — por exemplo, excluir uma conta que ainda possui posições abertas — é uma falha de correção que pode não ser detectável até uma auditoria.
A descoberta de que o "treinamento em código tem impactos ambivalentes" também é relevante. A gravação no Beancount está mais próxima da geração de código do que da recuperação de conhecimento, então um modelo pré-treinado em código deve ser um ajuste natural. Mas se o treinamento em código degrada o acompanhamento de diálogos em configurações multiturno, uma avaliação híbrida (como a do AgentBench) é necessária para expor essas compensações antes da implantação.
O que ler a seguir
- WebArena (Zhou et al., 2024; arXiv:2307.13854) — 812 tarefas de navegação na web em um ambiente de navegador real; a continuação focada em profundidade para o nível web do AgentBench.
- OSWorld (Xie et al., 2024; NeurIPS 2024) — benchmark completo de ambiente de desktop, incluindo tarefas de sistema de arquivos e GUI; o ambiente OS do OSWorld é um sucessor direto e mais profundo do nível OS do AgentBench.
- TAU-bench (Yao et al., 2024) — avalia agentes em ambientes de API de varejo e companhias aéreas com uso real de ferramentas e simulação de usuários; o benchmark publicado mais próximo de um cenário de livro-razão Beancount como ambiente.
