O GPT-4 atinge uma média de 74,1 de AUROC no benchmark ODDS sem ajuste fino — quase igualando a linha de base clássica ECOD de 75,5 — mas falha em anomalias multidimensionais e conjuntos de dados de alta variância; uma análise crítica da detecção de anomalias zero-shot por LLMs e suas implicações para a auditoria automatizada de livros contábeis Beancount.
O DocFinQA substitui as passagens selecionadas de 700 palavras do FinQA por arquivos completos da SEC de 123.000 palavras, expondo um aumento de contexto de 175× que reduz quase pela metade a precisão do GPT-4 em documentos longos. Os pipelines de recuperação falham em encontrar o trecho correto em 45% das vezes no HR@3 — e modelos de contexto longo não são um substituto.
O TheAgentCompany testa 175 tarefas reais de trabalho em uma intranet simulada com GitLab, OwnCloud e RocketChat. O melhor modelo (Gemini-2.5-Pro) conclui apenas 30% das tarefas a um custo de US$ 4 cada, revelando que agentes autônomos permanecem longe de serem viáveis para fluxos de trabalho contábeis e financeiros.
O τ²-bench expande o benchmarking de agentes para cenários de controle duplo, onde tanto a IA quanto o usuário invocam ferramentas sobre um estado compartilhado — descobrindo que usuários ativos reduzem as taxas de sucesso em 18 a 25 pontos percentuais, com implicações diretas para agentes Beancount que compartilham acesso de escrita com usuários humanos.
O WorkArena++ (NeurIPS 2024) avalia 682 tarefas empresariais composicionais em três níveis de dificuldade. O GPT-4o resolve 2,1% delas, enquanto humanos resolvem 93,9%, isolando exatamente por que os agentes de IA atuais falham em trabalhos de conhecimento com objetivos implícitos e por que essa lacuna é importante para a automação contábil autônoma.
O GAIA avalia 466 tarefas do mundo real em três níveis de dificuldade; agentes de fronteira atingiram 74,55% em meados de 2026 contra 92% dos humanos, e a lacuna restante no Nível 3 mapeia-se diretamente aos desafios de coordenação de múltiplas etapas em fluxos de trabalho automatizados do Beancount.
O OSWorld (NeurIPS 2024) avalia agentes de IA multimodais em 369 tarefas reais de desktop no Ubuntu, Windows e macOS — encontrando uma lacuna de 60 pontos percentuais entre o melhor modelo (12,24%) e o desempenho humano (72,36%), com 75% das falhas atribuídas a erros de fundamentação visuomotora em vez de falhas de raciocínio.
O GPT-4 conclui apenas 14,41% das 812 tarefas web realistas do WebArena, enquanto humanos atingem 78,24%; o principal modo de falha é a falsa inviabilidade — recusa conservadora de agir — com implicações diretas para qualquer agente que opere o Fava ou interfaces web financeiras.
O WorkArena avalia agentes web de LLM em 33 tarefas reais do ServiceNow — o GPT-4o atinge 42,7% no geral, mas 0% em tarefas de filtragem de listas, expondo uma barreira rígida entre o preenchimento de formulários e a interação estruturada de UI que se mapeia diretamente aos desafios na automação de livros contábeis do Beancount.