33 publicações com a etiqueta "Plain-Text Accounting"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Diferimento Ciente de Incerteza para Agentes LLM: Quando Escalar de Modelos Pequenos para Grandes

O ReDAct executa um modelo pequeno por padrão e escala para um modelo caro apenas quando a perplexidade em nível de token sinaliza incerteza, alcançando 64% de economia de custos em relação ao uso apenas do GPT-5.2, mantendo ou superando sua precisão — um padrão diretamente aplicável para agentes de categorização de transações no Beancount.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

OpenHands é uma plataforma de agentes com sandbox Docker e licença MIT onde o CodeAct atinge 26% no SWE-Bench Lite — um benchmark sóbrio que estabelece o que os agentes de IA podem fazer de forma confiável hoje, e por que as primeiras implantações financeiras produtivas devem ser estritamente delimitadas em vez de autônomas.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLMs pontuam 2,3% na Geração de DSL Beancount: O Benchmark LLMFinLiteracy

O benchmark LLMFinLiteracy revela que cinco modelos de pesos abertos de ~7B geram transações Beancount totalmente corretas apenas 2,3% das vezes, com falhas concentradas no raciocínio contábil — não na sintaxe — apontando o feedback do compilador no loop como o ingrediente crítico que falta para agentes de gravação confiáveis.

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Raciocínio Adaptativo para Compreensão de Tabelas com LLMs

O TableMaster é um pipeline baseado apenas em prompts que atinge 78,13% no WikiTQ com GPT-4o-mini — 13 pontos acima do Chain-of-Table — ao combinar extração de tabela de foco, verbalização semântica e alternância adaptativa entre raciocínio textual e simbólico. Veja o que essa arquitetura significa para agentes de IA em livros razão financeiros como o Beancount.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Medindo o Custo do Controle Duplo em Agentes de IA Conversacionais

O τ²-bench expande o benchmarking de agentes para cenários de controle duplo, onde tanto a IA quanto o usuário invocam ferramentas sobre um estado compartilhado — descobrindo que usuários ativos reduzem as taxas de sucesso em 18 a 25 pontos percentuais, com implicações diretas para agentes Beancount que compartilham acesso de escrita com usuários humanos.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

Benchmark GAIA: Medindo o Que os Agentes de IA de Fronteira Realmente Conseguem Fazer

O GAIA avalia 466 tarefas do mundo real em três níveis de dificuldade; agentes de fronteira atingiram 74,55% em meados de 2026 contra 92% dos humanos, e a lacuna restante no Nível 3 mapeia-se diretamente aos desafios de coordenação de múltiplas etapas em fluxos de trabalho automatizados do Beancount.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

O WorkArena avalia agentes web de LLM em 33 tarefas reais do ServiceNow — o GPT-4o atinge 42,7% no geral, mas 0% em tarefas de filtragem de listas, expondo uma barreira rígida entre o preenchimento de formulários e a interação estruturada de UI que se mapeia diretamente aos desafios na automação de livros contábeis do Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Medindo a Confiabilidade de Agentes de IA em Domínios de Uso de Ferramentas no Mundo Real

O τ-bench mostra que os principais LLMs, como o Claude 3.5 Sonnet, caem de um pass@1 de 0,692 para um pass@4 de 0,462 em tarefas de atendimento ao cliente no varejo — um "abismo de consistência" com implicações diretas para qualquer agente de gravação operando em um livro-razão Beancount.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evoluindo Tabelas na Cadeia de Raciocínio de LLMs

Chain-of-Table (ICLR 2024) melhora o raciocínio tabular de LLMs ao evoluir a própria tabela como estado intermediário — alcançando 67,31% no WikiTQ vs. 61,48% em baselines anteriores, com uma vantagem de +10,25 pontos em tabelas que excedem 4.000 tokens e aplicabilidade direta a agentes de consulta de livros razão Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?

O TableLlama faz o ajuste fino do Llama 2 (7B) em 2,6 milhões de exemplos de tarefas de tabela e supera o GPT-4 em tarefas estruturais como anotação de tipo de coluna (F1 94 vs 32), mas fica 33 pontos atrás no raciocínio composicional do WikiTQ — um benchmark calibrado para o que os modelos abertos de 7B podem e não podem fazer na IA financeira hoje.

Tudo Sobre Plain-Text Accounting

Diferimento Ciente de Incerteza para Agentes LLM: Quando Escalar de Modelos Pequenos para Grandes

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

LLMs pontuam 2,3% na Geração de DSL Beancount: O Benchmark LLMFinLiteracy

TableMaster: Raciocínio Adaptativo para Compreensão de Tabelas com LLMs

τ²-bench: Medindo o Custo do Controle Duplo em Agentes de IA Conversacionais

Benchmark GAIA: Medindo o Que os Agentes de IA de Fronteira Realmente Conseguem Fazer

WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real

τ-bench: Medindo a Confiabilidade de Agentes de IA em Domínios de Uso de Ferramentas no Mundo Real

Chain-of-Table: Evoluindo Tabelas na Cadeia de Raciocínio de LLMs

TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico