Bean Labs Research Log

AILLMFraud DetectionMachine LearningData ScienceBeancountAutomation

Detecção de Anomalias Zero-Shot com LLMs: Como o GPT-4 se Comporta em Dados Tabulares

O GPT-4 atinge uma média de 74,1 de AUROC no benchmark ODDS sem ajuste fino — quase igualando a linha de base clássica ECOD de 75,5 — mas falha em anomalias multidimensionais e conjuntos de dados de alta variância; uma análise crítica da detecção de anomalias zero-shot por LLMs e suas implicações para a auditoria automatizada de livros contábeis Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

O DocFinQA substitui as passagens selecionadas de 700 palavras do FinQA por arquivos completos da SEC de 123.000 palavras, expondo um aumento de contexto de 175× que reduz quase pela metade a precisão do GPT-4 em documentos longos. Os pipelines de recuperação falham em encontrar o trecho correto em 45% das vezes no HR@3 — e modelos de contexto longo não são um substituto.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real

O TheAgentCompany testa 175 tarefas reais de trabalho em uma intranet simulada com GitLab, OwnCloud e RocketChat. O melhor modelo (Gemini-2.5-Pro) conclui apenas 30% das tarefas a um custo de US$ 4 cada, revelando que agentes autônomos permanecem longe de serem viáveis para fluxos de trabalho contábeis e financeiros.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Medindo o Custo do Controle Duplo em Agentes de IA Conversacionais

O τ²-bench expande o benchmarking de agentes para cenários de controle duplo, onde tanto a IA quanto o usuário invocam ferramentas sobre um estado compartilhado — descobrindo que usuários ativos reduzem as taxas de sucesso em 18 a 25 pontos percentuais, com implicações diretas para agentes Beancount que compartilham acesso de escrita com usuários humanos.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais

O WorkArena++ (NeurIPS 2024) avalia 682 tarefas empresariais composicionais em três níveis de dificuldade. O GPT-4o resolve 2,1% delas, enquanto humanos resolvem 93,9%, isolando exatamente por que os agentes de IA atuais falham em trabalhos de conhecimento com objetivos implícitos e por que essa lacuna é importante para a automação contábil autônoma.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

Benchmark GAIA: Medindo o Que os Agentes de IA de Fronteira Realmente Conseguem Fazer

O GAIA avalia 466 tarefas do mundo real em três níveis de dificuldade; agentes de fronteira atingiram 74,55% em meados de 2026 contra 92% dos humanos, e a lacuna restante no Nível 3 mapeia-se diretamente aos desafios de coordenação de múltiplas etapas em fluxos de trabalho automatizados do Beancount.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

O OSWorld (NeurIPS 2024) avalia agentes de IA multimodais em 369 tarefas reais de desktop no Ubuntu, Windows e macOS — encontrando uma lacuna de 60 pontos percentuais entre o melhor modelo (12,24%) e o desempenho humano (72,36%), com 75% das falhas atribuídas a erros de fundamentação visuomotora em vez de falhas de raciocínio.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: O Benchmark de 812 Tarefas que Mede o que Agentes Web Realmente Podem e Não Podem Fazer

O GPT-4 conclui apenas 14,41% das 812 tarefas web realistas do WebArena, enquanto humanos atingem 78,24%; o principal modo de falha é a falsa inviabilidade — recusa conservadora de agir — com implicações diretas para qualquer agente que opere o Fava ou interfaces web financeiras.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

O WorkArena avalia agentes web de LLM em 33 tarefas reais do ServiceNow — o GPT-4o atinge 42,7% no geral, mas 0% em tarefas de filtragem de listas, expondo uma barreira rígida entre o preenchimento de formulários e a interação estruturada de UI que se mapeia diretamente aos desafios na automação de livros contábeis do Beancount.

TableMaster: Raciocínio Adaptativo para Compreensão de Tabelas com LLMs

Latest articles

Detecção de Anomalias Zero-Shot com LLMs: Como o GPT-4 se Comporta em Dados Tabulares

DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real

τ²-bench: Medindo o Custo do Controle Duplo em Agentes de IA Conversacionais

WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais

Benchmark GAIA: Medindo o Que os Agentes de IA de Fronteira Realmente Conseguem Fazer

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

WebArena: O Benchmark de 812 Tarefas que Mede o que Agentes Web Realmente Podem e Não Podem Fazer

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico