Pular para o conteúdo principal

Benchmark GAIA: Medindo o Que os Agentes de IA de Fronteira Realmente Conseguem Fazer

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

Após ler o WebArena e o OSWorld — dois benchmarks onde os agentes enfrentam grandes dificuldades com interações na web e desktop ao nível de pixels — eu quis dar um passo atrás e analisar um benchmark complementar que deliberadamente contorna esse enquadramento. O GAIA (Mialon et al., ICLR 2024) avalia assistentes de IA de propósito geral em questões que são "conceitualmente simples para humanos, mas desafiadoras para a maioria das IAs avançadas", tornando-o uma medida mais direta da capacidade de agente autônomo que um assistente Beancount realmente precisaria.

O artigo

2026-06-16-gaia-benchmark-general-ai-assistants

O GAIA faz uma pergunta direta: se removermos o enquadramento de exames profissionais especializados que define a maioria dos benchmarks de LLM (exames da ordem, conselhos médicos, matemática de nível de pós-graduação), quão bem os modelos de fronteira realmente se saem em tarefas cotidianas de pesquisa e raciocínio que um assistente humano resolveria? Mialon, Fourrier, Swift, Wolf, LeCun e Scialom reuniram 466 questões do mundo real que exigem navegação na web, execução de código, compreensão multimodal e raciocínio de múltiplas etapas — mas para as quais a resposta de referência é inequívoca e concisa o suficiente para ser verificada automaticamente.

O benchmark é dividido em três níveis. O Nível 1 (cerca de 146 questões) espera soluções em menos de cinco etapas com uso mínimo de ferramentas. O Nível 2 (cerca de 245 questões) requer a orquestração correta de múltiplas ferramentas ao longo de cinco a dez etapas. O Nível 3 (cerca de 75 questões) exige planejamento de longo horizonte e integração sofisticada de ferramentas. Esta não é uma taxonomia arbitrária: ela rastreia diretamente a sobrecarga de coordenação que os agentes autônomos devem sustentar.

Ideias-chave

  • Humanos pontuam 92% no geral. O GPT-4 com plugins pontuou apenas 15% na época da publicação — uma lacuna de 77 pontos em tarefas que uma pessoa competente resolve em minutos.
  • O benchmark resiste à "manipulação" (gaming) de uma forma que os benchmarks de exames não conseguem: as respostas exigem encontrar fatos não indexados, executar cálculos ou sintetizar através de modalidades, portanto, a memorização do pré-treinamento raramente funciona.
  • Os três níveis expõem onde os pipelines de agentes realmente colapsam: o Nível 1 recompensa uma boa recuperação; o Nível 2 pune erros cumulativos em chamadas de ferramentas; o Nível 3 exige rastreamento sustentado de objetivos ao longo de muitas etapas, algo que nenhum sistema na época da publicação conseguia fazer de forma confiável.
  • As questões são inequívocas por design — cada uma tem uma resposta curta correta — o que torna a avaliação automática confiável, mas também restringe o tipo de tarefa a busca-e-derivação em vez de raciocínio aberto.
  • Até meados de 2026, o melhor agente reportado publicamente no leaderboard da HAL (Claude Sonnet 4.5) atinge 74,55% no geral: 82% no Nível 1, 73% no Nível 2 e 65% no Nível 3. O desempenho humano ainda se mantém em cerca de 92%, portanto, o Nível 3 mantém uma lacuna significativa.
  • O conjunto de validação está agora amplamente disponível e quase certamente vazou para os dados de treinamento, tornando as pontuações do conjunto de validação de modelos mais recentes essencialmente não interpretáveis. O conjunto de teste reservado permanece mais limpo, mas é inacessível para autoavaliação.

O que se sustenta — e o que não

A visão central — que os LLMs de fronteira não estão nem perto da robustez de nível humano em tarefas práticas de assistência — foi genuinamente importante no final de 2023 e desencadeou uma onda produtiva de pesquisa agêntica. A estrutura de três níveis é bem calibrada: o Nível 1 e o Nível 3 ocupam estratos de capacidade significativamente diferentes e o benchmark não colapsa em nenhum dos extremos.

Onde o artigo mostra sua idade é na configuração da avaliação. A linha de base "GPT-4 com plugins" já estava obsoleta na época do ICLR 2024; agentes modernos usando Claude 3.7 Sonnet ou Claude Sonnet 4.5 fecham grande parte da lacuna nos Níveis 1 e 2. Mais seriamente, cerca de 5% das questões possuem erros ou ambiguidades no gabarito, e os autores reconhecem isso, mas não publicam um conjunto de dados corrigido. Esse é um problema de confiabilidade não trivial para um benchmark de 466 questões.

A limitação mais profunda é o formato da resposta. O GAIA funciona porque cada resposta é uma string curta verificável. Essa restrição limita as tarefas a "procurar algo e calcular ou transformar" em vez de "elaborar um plano, executá-lo e produzir um artefato estruturado". Casos de uso reais do Beancount — conciliar um mês de transações, escrever um lançamento de diário para uma negociação complexa (multi-leg), gerar um relatório de fim de ano — não se encaixam nesse molde. O GAIA mede uma faceta do que um assistente geral precisa; ele não mede a execução do fluxo de trabalho de ponta a ponta.

A situação da contaminação agora é séria. Qualquer agente que liste a precisão do conjunto de validação como seu número principal sem precauções explícitas deve ser visto com suspeita. A posição no leaderboard de modelos mais recentes quase certamente reflete, em parte, a sobreposição com o conjunto de treinamento.

Por que isso importa para a IA financeira

A trajetória de 15% → 74% ao longo de dois anos e meio é encorajadora, mas a lacuna restante no Nível 3 é precisamente onde reside a automação do Beancount. As tarefas de Nível 3 exigem o rastreamento de um estado intermediário ao longo de muitas etapas sem perder o objetivo — exatamente o que um agente de gravação no livro-razão deve fazer quando busca saldos de conta, aplica uma regra de conciliação, verifica o resultado em relação a uma restrição e, em seguida, confirma (commit) ou reverte (rollback) a operação. Se os agentes de fronteira ainda falham em 35% das questões de Nível 3 do GAIA, que são conceitualmente simples para humanos, isso é um alerta direto sobre a confiabilidade para operações de livro-razão de múltiplas etapas.

O princípio de design do GAIA — inequívoco, verificável, tratável por humanos — também é um modelo útil para avaliar agentes Beancount. Tenho pensado em como seria um conjunto "FinGAIA": perguntas como "dado este arquivo de livro-razão, qual conta está com saldo negativo no fim do mês?" ou "qual é o equivalente em USD do saldo em EUR em 31/12/2024?" que são inequívocas, exigem o uso de ferramentas e degradam graciosamente em três níveis de complexidade. A metodologia do GAIA se traduz diretamente; o domínio apenas precisa ser substituído.

Uma coisa que o GAIA não aborda — e que o Bean Labs deve eventualmente resolver — é a gravação segura (safe write-back). Todas as tarefas do GAIA são de leitura e resposta. Um agente autônomo do Beancount que modifica o estado do livro-razão precisa de um protocolo de avaliação separado para correção, atomicidade e reversibilidade. O GAIA mostra que os agentes podem obter a resposta certa; ele não diz nada sobre se eles conseguem gravá-la com segurança.

O que ler a seguir

  • TheAgentCompany (arXiv:2412.14161) — 175 tarefas dentro de uma empresa de software simulada com ferramentas internas reais; o melhor agente completa 24% de forma autônoma; o análogo mais direto para avaliar um agente Beancount inserido em um fluxo de trabalho contábil real.
  • AssistantBench (arXiv:2407.15711, Yoran et al., 2024) — avalia agentes da web em tarefas realistas e demoradas enviadas por usuários reais; complementa o GAIA testando a recuperação aberta em vez de respostas fixas verificáveis.
  • WorkArena++ (arXiv:2407.05291) — estende o WorkArena para 682 tarefas corporativas composicionais e de múltiplas etapas; as mais difíceis (Nível 3) permanecem não resolvidas por qualquer modelo atual, tornando-o a próxima fronteira de dificuldade após o Nível 3 do GAIA.