Mike Thrift
Marketing Manager
τ²-bench: Medindo o Custo do Controle Duplo em Agentes de IA Conversacionais
O τ²-bench expande o benchmarking de agentes para cenários de controle duplo, onde tanto a IA quanto o usuário invocam ferramentas sobre um estado compartilhado — descobrindo que usuários ativos reduzem as taxas de sucesso em 18 a 25 pontos percentuais, com implicações diretas para agentes Beancount que compartilham acesso de escrita com usuários humanos.
WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais
O WorkArena++ (NeurIPS 2024) avalia 682 tarefas empresariais composicionais em três níveis de dificuldade. O GPT-4o resolve 2,1% delas, enquanto humanos resolvem 93,9%, isolando exatamente por que os agentes de IA atuais falham em trabalhos de conhecimento com objetivos implícitos e por que essa lacuna é importante para a automação contábil autônoma.
Benchmark GAIA: Medindo o Que os Agentes de IA de Fronteira Realmente Conseguem Fazer
O GAIA avalia 466 tarefas do mundo real em três níveis de dificuldade; agentes de fronteira atingiram 74,55% em meados de 2026 contra 92% dos humanos, e a lacuna restante no Nível 3 mapeia-se diretamente aos desafios de coordenação de múltiplas etapas em fluxos de trabalho automatizados do Beancount.
OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%
O OSWorld (NeurIPS 2024) avalia agentes de IA multimodais em 369 tarefas reais de desktop no Ubuntu, Windows e macOS — encontrando uma lacuna de 60 pontos percentuais entre o melhor modelo (12,24%) e o desempenho humano (72,36%), com 75% das falhas atribuídas a erros de fundamentação visuomotora em vez de falhas de raciocínio.
WebArena: O Benchmark de 812 Tarefas que Mede o que Agentes Web Realmente Podem e Não Podem Fazer
O GPT-4 conclui apenas 14,41% das 812 tarefas web realistas do WebArena, enquanto humanos atingem 78,24%; o principal modo de falha é a falsa inviabilidade — recusa conservadora de agir — com implicações diretas para qualquer agente que opere o Fava ou interfaces web financeiras.
WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real
O WorkArena avalia agentes web de LLM em 33 tarefas reais do ServiceNow — o GPT-4o atinge 42,7% no geral, mas 0% em tarefas de filtragem de listas, expondo uma barreira rígida entre o preenchimento de formulários e a interação estruturada de UI que se mapeia diretamente aos desafios na automação de livros contábeis do Beancount.
τ-bench: Medindo a Confiabilidade de Agentes de IA em Domínios de Uso de Ferramentas no Mundo Real
O τ-bench mostra que os principais LLMs, como o Claude 3.5 Sonnet, caem de um pass@1 de 0,692 para um pass@4 de 0,462 em tarefas de atendimento ao cliente no varejo — um "abismo de consistência" com implicações diretas para qualquer agente de gravação operando em um livro-razão Beancount.
Chain-of-Table: Evoluindo Tabelas na Cadeia de Raciocínio de LLMs
Chain-of-Table (ICLR 2024) melhora o raciocínio tabular de LLMs ao evoluir a própria tabela como estado intermediário — alcançando 67,31% no WikiTQ vs. 61,48% em baselines anteriores, com uma vantagem de +10,25 pontos em tabelas que excedem 4.000 tokens e aplicabilidade direta a agentes de consulta de livros razão Beancount.
TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?
O TableLlama faz o ajuste fino do Llama 2 (7B) em 2,6 milhões de exemplos de tarefas de tabela e supera o GPT-4 em tarefas estruturais como anotação de tipo de coluna (F1 94 vs 32), mas fica 33 pontos atrás no raciocínio composicional do WikiTQ — um benchmark calibrado para o que os modelos abertos de 7B podem e não podem fazer na IA financeira hoje.
TAPAS: Table QA Fracamente Supervisionado Sem SQL, e o Que Isso Significa para o Beancount
O TAPAS (Google Research, ACL 2020) responde a perguntas sobre tabelas selecionando células e aplicando agregações escalares — sem gerar SQL. Este post analisa a arquitetura, seu ganho de 12 pontos na precisão de SQA e por que o paradigma de seleção de células se adapta a pequenas consultas de livros razão Beancount, mas falha em larga escala.
MAC-SQL: Colaboração Multi-Agente de Texto para SQL
O MAC-SQL (COLING 2025) utiliza três agentes especializados — Seletor para redução de esquema, Decompositor para decomposição de perguntas e Refinador para correção de SQL guiada por execução — para alcançar 59,59% de precisão de execução no benchmark BIRD; a ablação mostra que o Refinador é o que mais contribui (+4,63 pontos), com implicações diretas para a geração de consultas em livros-razão do Beancount.
DIN-SQL: Aprendizado em Contexto Decomposto para Text-to-SQL
O DIN-SQL (NeurIPS 2023) decompõe o text-to-SQL em etapas de vinculação de esquema, classificação de complexidade e geração de SQL, elevando o GPT-4 de 67,4% para 85,3% de precisão de execução no Spider sem ajuste fino — e a mesma estratégia de decomposição mapeia-se diretamente para interfaces de linguagem natural para a linguagem de consulta BQL do Beancount.