Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench: Medindo o Custo do Controle Duplo em Agentes de IA Conversacionais

O τ²-bench expande o benchmarking de agentes para cenários de controle duplo, onde tanto a IA quanto o usuário invocam ferramentas sobre um estado compartilhado — descobrindo que usuários ativos reduzem as taxas de sucesso em 18 a 25 pontos percentuais, com implicações diretas para agentes Beancount que compartilham acesso de escrita com usuários humanos.

llm

automation

June 17, 2026·mike

WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais

O WorkArena++ (NeurIPS 2024) avalia 682 tarefas empresariais composicionais em três níveis de dificuldade. O GPT-4o resolve 2,1% delas, enquanto humanos resolvem 93,9%, isolando exatamente por que os agentes de IA atuais falham em trabalhos de conhecimento com objetivos implícitos e por que essa lacuna é importante para a automação contábil autônoma.

llm

automation

June 16, 2026·mike

Benchmark GAIA: Medindo o Que os Agentes de IA de Fronteira Realmente Conseguem Fazer

O GAIA avalia 466 tarefas do mundo real em três níveis de dificuldade; agentes de fronteira atingiram 74,55% em meados de 2026 contra 92% dos humanos, e a lacuna restante no Nível 3 mapeia-se diretamente aos desafios de coordenação de múltiplas etapas em fluxos de trabalho automatizados do Beancount.

llm

machine-learning

June 15, 2026·mike

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

O OSWorld (NeurIPS 2024) avalia agentes de IA multimodais em 369 tarefas reais de desktop no Ubuntu, Windows e macOS — encontrando uma lacuna de 60 pontos percentuais entre o melhor modelo (12,24%) e o desempenho humano (72,36%), com 75% das falhas atribuídas a erros de fundamentação visuomotora em vez de falhas de raciocínio.

machine-learning

automation

June 14, 2026·mike

WebArena: O Benchmark de 812 Tarefas que Mede o que Agentes Web Realmente Podem e Não Podem Fazer

O GPT-4 conclui apenas 14,41% das 812 tarefas web realistas do WebArena, enquanto humanos atingem 78,24%; o principal modo de falha é a falsa inviabilidade — recusa conservadora de agir — com implicações diretas para qualquer agente que opere o Fava ou interfaces web financeiras.

llm

automation

June 13, 2026·mike

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

O WorkArena avalia agentes web de LLM em 33 tarefas reais do ServiceNow — o GPT-4o atinge 42,7% no geral, mas 0% em tarefas de filtragem de listas, expondo uma barreira rígida entre o preenchimento de formulários e a interação estruturada de UI que se mapeia diretamente aos desafios na automação de livros contábeis do Beancount.

llm

automation

June 12, 2026·mike

τ-bench: Medindo a Confiabilidade de Agentes de IA em Domínios de Uso de Ferramentas no Mundo Real

O τ-bench mostra que os principais LLMs, como o Claude 3.5 Sonnet, caem de um pass@1 de 0,692 para um pass@4 de 0,462 em tarefas de atendimento ao cliente no varejo — um "abismo de consistência" com implicações diretas para qualquer agente de gravação operando em um livro-razão Beancount.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: Evoluindo Tabelas na Cadeia de Raciocínio de LLMs

Chain-of-Table (ICLR 2024) melhora o raciocínio tabular de LLMs ao evoluir a própria tabela como estado intermediário — alcançando 67,31% no WikiTQ vs. 61,48% em baselines anteriores, com uma vantagem de +10,25 pontos em tabelas que excedem 4.000 tokens e aplicabilidade direta a agentes de consulta de livros razão Beancount.

llm

machine-learning

June 10, 2026·mike

TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?

O TableLlama faz o ajuste fino do Llama 2 (7B) em 2,6 milhões de exemplos de tarefas de tabela e supera o GPT-4 em tarefas estruturais como anotação de tipo de coluna (F1 94 vs 32), mas fica 33 pontos atrás no raciocínio composicional do WikiTQ — um benchmark calibrado para o que os modelos abertos de 7B podem e não podem fazer na IA financeira hoje.

llm

machine-learning

June 9, 2026·mike

TAPAS: Table QA Fracamente Supervisionado Sem SQL, e o Que Isso Significa para o Beancount

O TAPAS (Google Research, ACL 2020) responde a perguntas sobre tabelas selecionando células e aplicando agregações escalares — sem gerar SQL. Este post analisa a arquitetura, seu ganho de 12 pontos na precisão de SQA e por que o paradigma de seleção de células se adapta a pequenas consultas de livros razão Beancount, mas falha em larga escala.

machine-learning

llm

June 8, 2026·mike

MAC-SQL: Colaboração Multi-Agente de Texto para SQL

O MAC-SQL (COLING 2025) utiliza três agentes especializados — Seletor para redução de esquema, Decompositor para decomposição de perguntas e Refinador para correção de SQL guiada por execução — para alcançar 59,59% de precisão de execução no benchmark BIRD; a ablação mostra que o Refinador é o que mais contribui (+4,63 pontos), com implicações diretas para a geração de consultas em livros-razão do Beancount.

machine-learning

database

June 7, 2026·mike

DIN-SQL: Aprendizado em Contexto Decomposto para Text-to-SQL

O DIN-SQL (NeurIPS 2023) decompõe o text-to-SQL em etapas de vinculação de esquema, classificação de complexidade e geração de SQL, elevando o GPT-4 de 67,4% para 85,3% de precisão de execução no Spider sem ajuste fino — e a mesma estratégia de decomposição mapeia-se diretamente para interfaces de linguagem natural para a linguagem de consulta BQL do Beancount.

llm

database

Mostrando 25–36 de 87 publicações

Anterior3 / 8Próximo